Discover
Die Data Engineering Reise

Die Data Engineering Reise
Author: Der Data Engineering Podcaster
Subscribed: 3Played: 55Subscribe
Share
© Der Data Engineering Podcaster
Description
Podcast-Folgen zu diversen Data Engineering Themen.
Begib dich mit mir auf die Reise hin zu einem Experten in Sachen Data Engineering und gehe den Unternehmens-Datenschätzen auf den Grund.
Was steckt eigentlich in "BigData" und den großen Lagacy-Datenbanken der Unternehmen?
Wir finden es gemeinsam heraus.
Tools wie die größten Cloud Plattformen der Welt (AWS, Azure, GCP, ...), sowie Programmiersprachen (Python, ...), Scheduling Tools etc. helfen uns bei der Erschließung und der Bereitstellung spannender Insights.
Begib dich mit mir auf die Reise hin zu einem Experten in Sachen Data Engineering und gehe den Unternehmens-Datenschätzen auf den Grund.
Was steckt eigentlich in "BigData" und den großen Lagacy-Datenbanken der Unternehmen?
Wir finden es gemeinsam heraus.
Tools wie die größten Cloud Plattformen der Welt (AWS, Azure, GCP, ...), sowie Programmiersprachen (Python, ...), Scheduling Tools etc. helfen uns bei der Erschließung und der Bereitstellung spannender Insights.
594 Episodes
Reverse
Eine Modellierungsmethode, um Daten im Data Warehouse zu strukturieren, ist das Data Vault Konzept. Was sind nun aber die Haupttabellentypen?
Normalisierung wird in Datenbanken angewendet, um Duplikate und Datenredundanz zu vermeiden, die Integrität und Konsistenz der Daten zu gewährleisten und die Performance der Datenbank zu verbessern.
Relationale Datenbanken nutzen eine tabellarische Struktur, während NoSQL-Datenbanken eine flexible nicht-relationale Struktur verwenden.
Redundanzen und Abhängigkeiten vermeiden.
Ein Primärschlüssel ist ein eindeutiger Wert, der verwendet wird, um einen Datensatz in einer Tabelle zu identifizieren. Ein Fremdschlüssel hingegen ist ein Primärschlüssel einer anderen Tabelle, der in einer anderen Tabelle verwendet wird, um eine Beziehung zwischen den Tabellen herzustellen.
Eine Materialized View speichert das Ergebnis einer Abfrage und stellt es als eine separate Tabelle bereit, während eine View lediglich eine virtuelle Tabelle darstellt, die auf das Ergebnis einer Abfrage verweist. Materialized Views bieten eine bessere Performance, da das Ergebnis einer Abfrage bereits gespeichert ist, während Views jedes Mal neu berechnet werden müssen, wenn sie abgefragt werden.
Einige kurze Sätze zum Thema SQL und relationale Datenbanken.
Scrum ist ein agiles Projektmanagement-Framework, das einen iterativen Ansatz und eine enge Zusammenarbeit und Kommunikation zwischen Teammitgliedern bei der Produktentwicklung fördert. Es verwendet regelmäßige Überprüfungen, Anpassungen und kurze Iterationen (Sprints), um eine hohe Kundenzufriedenheit zu erreichen.
Frage: Wie kann man in SQL die häufigsten Werte in einer Spalte finden?
Schneller Überblick über das Data Vault Konzept. Mit Beispiel für die Hub, Link und Sateliten Tabellen.
Die eine Modellierungsvariante ist eher für Data Warehouses und die andere für OLTP Systeme.
ACID ist ein Konzept für Datenbankmanagement-Systeme, das Atomarität, Konsistenz, Isolation und Dauerhaftigkeit garantiert, um die Integrität und Zuverlässigkeit von Transaktionen in einer Datenbank zu gewährleisten.
Datawarehouse-Modellierung kurzer Einblick. https://larsmuellensiefen.substack.com/
Datenbankmodellierung mit ER Diagramm. https://larsmuellensiefen.substack.com/
FinOps ist ein Ansatz zur Finanzverwaltung und -optimierung in Unternehmen, die Cloud-Computing-Dienste nutzen. Es beinhaltet die Verwaltung von Kosten, Compliance, Risiken und Governance in Bezug auf Cloud-Dienste, sowie Überwachung und Optimierung der Nutzung von Ressourcen, um sicherzustellen, dass sie effizient und kosteneffektiv genutzt werden... - https://larsmuellensiefen.substack.com/
Ein Data Fabric ist ein Konzept der Datenarchitektur, das es ermöglicht, Daten auf flexible und skalierbare Weise zu organisieren und zu verwalten, über mehrere Systeme und Standorte hinweg und ermöglicht eine einheitliche und integrierte Datenverwaltung. https://larsmuellensiefen.substack.com/
Ersetzten ChatGPT und ähnliche KI basierte Werkzeuge bereits einen Data Engineer?
Insgesamt ist KI ein leistungsfähiges Werkzeug, das die Effizienz und Genauigkeit von Aufgaben der Datenverarbeitung erheblich verbessern kann und Unternehmen ermöglicht, tiefere Einblicke zu gewinnen und aufgrund ihrer Daten informierte Entscheidungen zu treffen.
Insgesamt kann KI viele Aufgaben der Datenverarbeitung automatisieren und neue Möglichkeiten bieten, aber die menschliche Expertise und das Verständnis des Data Engineer für die spezifische Geschäftsdomäne kann entscheidend sein, um effektive Datensysteme zu entwerfen und umzusetzen.
Star Schema und Snowflake Schema sind beides Techniken, die in Data Warehouses verwendet werden, um Daten zu organisieren und zu strukturieren, damit sie leicht abgefragt und analysiert werden können.