Databend + Iceberg:云原生数据仓库的下一个前沿
2025年6月,Rust编写的云原生数据仓库Databend在1.2.708-nightly版本中新增了对Apache Iceberg表的基本操作支持。这个看似小的版本更新,实际上揭示了现代数据架构的一个重要演进方向:高性能OLAP引擎与开放表格式的深度融合。
Databend:Rust重写的数据仓库新势力
Databend是一个完全采用Rust从零构建的开源云原生数据仓库,定位为"Data Agent Ready Warehouse"——一个兼顾分析、搜索、AI和Python沙箱的统一架构平台。基于S3的对象存储作为底层存储,Databend天然具备弹性扩展和低成本的优势,能够处理PB级别的数据分析工作负载。
与传统数据仓库不同,Databend的设计哲学强调"一种架构适配多种工作负载",这对于数据栈越来越复杂的企业来说是一大吸引力——不需要为分析、搜索和AI分别维护不同的基础设施。
Iceberg支持的战略意义
Apache Iceberg已成为数据湖领域的开放表格式标准。它解决了传统Hive表格式在ACID事务、Schema演化、时间旅行等方面的短板。Databend加入Iceberg支持,意味着用户现在可以直接通过Databend管理Iceberg格式的表结构——创建表、删除表等基础操作已经可用。
这一步的战略意义在于互操作性。在一个典型的企业数据架构中,数据可能同时被Spark进行ETL处理、被Trino进行即席查询、被Databend进行OLAP分析。Iceberg作为统一的表格式层,确保不同引擎看到一致的数据视图。Databend成为这个生态的一部分后,企业可以在不锁定单一引擎的前提下,自由选择最适合特定工作负载的工具。
技术修复与稳定性提升
1.2.708-nightly版本还修复了嵌套类型转换可能引发的panic问题,以及字符串视图内存大小计算错误。嵌套类型在复杂数据结构中非常常见,这个修复提升了系统在处理半结构化数据时的稳定性。而内存计算的准确性直接关系到查询优化器的决策质量——错误的内存估算会导致次优的执行计划,从而影响查询性能。
小编观点
Databend + Iceberg的组合代表了数据架构的两个重要趋势:一是"存算分离"向"开放表格式+多引擎"演进;二是Rust在数据基础设施领域的全面崛起。对于数据团队而言,选择Databend这样的Rust原生引擎,意味着获得接近C++的性能而不需要承受其开发复杂度。Iceberg的开放标准又确保了数据不被单一引擎锁定,这种"高性能+开放性"的组合很有吸引力。当然,Databend的Iceberg支持目前还处于早期阶段(仅支持CREATE/DROP TABLE),离生产级别的完整支持还有距离。但方向已经非常明确——未来的数据湖不会是一个单一引擎的世界,而是多个专业化引擎通过开放表格式协作的生态。
评论 (0)