Die Akquisitionswelle von Databricks geht weiter: Mit der Übernahme von Tabular für über 1 Milliarde US-Dollar sichert sich das Unternehmen die Unterstützung des Apache Iceberg Datenformats. Gleichzeitig ist der Deal aber auch ein strategischer Schachzug im Wettstreit mit dem Konkurrenten Snowflake.
Databricks hat sich in den letzten Jahren als Vorreiter der Lakehouse-Architektur etabliert und die Open-Source-Spezifikation Delta Lake maßgeblich vorangetrieben. Mit der Integration von Tabular und der damit verbundenen Iceberg-Expertise strebt das Unternehmen nun die Führungsrolle bei offenen Datenformaten an.
Die Akquisition soll Unternehmen langfristig aus einer Abhängigkeit von einzelnen proprietären Formaten befreien. Kurzfristig wird Databricks die beiden Standards Delta Lake und Iceberg durch die UniForm-Technologie kompatibel machen. Die ultimative Vision ist jedoch ein einziger offener Industriestandard.
Frontalangriff auf Snowflake
Neben den technologischen Aspekten ist der Zukauf von Tabular auch ein Wettbewerbsschlag gegen Snowflake. Der Cloud-Datenriese setzt ebenfalls auf Iceberg und hatte just auf seiner Kundenkonferenz neue Integrationen vorgestellt. Mit dem Kauf haben die beiden Rivalen nun jeweils Einfluss auf die Weiterentwicklung beider vorherrschender Formate.
Einige Analysten interpretieren Databricks’ Vorstoß als kalkulierte Kampfansage an Snowflake. Das Unternehmen stemmt sich mit seiner Open-Source-Strategie gegen die Vormachtstellung des Konkurrenten und verspricht seinen Kunden mehr Flexibilität durch die Unterstützung multipler Formate.
Hinter den Kulissen dürfte aber auch die Akquise neuer Kunden eine Rolle spielen. Databricks sichert sich mit Tabular Erfahrung im wachsenden Iceberg-Ökosystem, in dem bereits viele Firmen wie Google, Cloudera und Fivetran aktiv sind. Die Integration beider Formate ist ein Schritt, um eben diese Unternehmen als Neukunden zu gewinnen.
Was ist Apache Iceberg?
Apache Iceberg ist ein quelloffenes, skalier- und maschinenlesbares Format für analytische Tabellen in Daten-Lakehouses. Es wurde ursprünglich bei Netflix entwickelt und 2018 der Apache Software Foundation gespendet. Einige wichtige Aspekte von Apache Iceberg sind:
– Offenes Table-Format für strukturierte Daten, ähnlich wie Delta Lake von Databricks
– Ermöglicht ACID-Transaktionen für sichere, konsistente Operationen auf Daten in Object Stores
– Metadaten werden in lesbaren Apache Avro Dateien gespeichert
– Unterstützt leistungsstarke Snapshot-Isolation für Analysen auf sich verändernden Daten
– Hohe Leistung durch Datenpartitionierung, Daten-Skipping und Metadaten-Caching
– Breite Unterstützung durch Datenverarbeitungs-Engines wie Spark, Trino, Flink, PrestoDB usw.
– Hohe Kompatibilität mit anderen Datenformaten wie Parquet, ORC, Avro usw.
Apache Iceberg wurde entwickelt, um einige Schwächen herkömmlicher Daten-Lakes zu überwinden, wie schlechte Abfrageleistung, fehlende Transaktionsgarantien und schlechte Unterstützung für strukturierte Tabellen. Es ist eine wichtige Komponente der modernen Lakehouse-Architektur und hat sich neben Delta Lake zu einem führenden Open-Source-Standard in diesem Bereich entwickelt.