事件背景
Apache Doris 社区近日发布了 2026 年开发路线图,正式宣告其 战略重心从分析型数据库向统一数据平台的转型,核心目标是承 接 AI 原生工作负载。此次公告通过 稀土掘金开发者社区发布,是 继 2025 年相继推出 3.1 与 4.0 两个 重要版本后的又一重要动作,并 将全年主题确立为 Scale Intelligence, Accelerate Insight(规模化智 能,加速洞察)。
最新发布的 4.0 版本将 Vector Search 提升为一等 公民特性,使结构化数据、半结构化数据与向量数据得以在 同一 SQL 引擎内统一查询。此前,用户若要在 关系型分析的同时处理语义检索,往 往需要额外部署专用向量数据库或 Elasticsearch 等独立系统。
为何重要
这份路线图释 放出一个明确信号:Doris 正在主动整 合碎片化的 AI 数据技术栈。企业团队目前普 遍面临 OLAP 分析、全文检索与向量检索三套系统并行运维 的困境,由此带来的运维成本 叠加与数据一致性风险不容忽视。Apache Doris 将单一引擎定位为解 决方案,直接挑战以 ClickHouse 或 Snowflake 搭配 Pinecone 或 Weaviate 再叠加 Elasticsearch 的多系统架构。
Doris 社区指出,推动 此次整合的结构性压力主要来自三个方面:
- 规模化场景下的 Schema 不稳定性: Agent 交互日志、LLM 输出内容及用户行为追踪数 据,大多以 JSON 格式写入,字段结构与列基数难 以预测。传统列式 Schema 在不引 入大量工程投入的情况下,根本无法有效消化此类数据。
- 并发 请求的指数级放大:单次 Agent 请求会 触发多个下游数据访问调用,对系统吞吐量与延迟的 要求已远超批处理导向的分析系统所能承载的上 限。
- AI 可观测性成为全新工作负载类型:追踪 Agent 行为—— 包括安全异常、推理模式与故障模式——需要实时关联 Trace、Log 与 Metric 数据。 路线图将此视为有别于传统 APM 分析的独立 工作负载类型。
路线图中明确提 出对 OpenTelemetry 的原生集成支持,这一举措尤为值 得关注。它将 Doris 定位为新兴 AI 可观测性工具链 的底层基础设施,并在这一市场 尚未定型之前,直接与专用解 决方案展开竞争。
技术细节
Vector Search 的规模化 扩展
2026 年路线图的目标是通过基 于磁盘的近似最近邻(Approximate Nearest Neighbor,ANN)算法与 数据结构,支持数百亿量级的向量存储与检索。 现有的内存 ANN 实现在成本与容量上存在明 显瓶颈,远低于这一量级门槛。路线图还明 确提出,将在 Merge-on-Write 存储模型之上构 建可更新的向量索引,并持续提升向量数据的压缩率与 索引管理效率。
混合检索架构(HSAP)
Doris 4.0 已实 现在单条 SQL 语句中同时执行全文检索、语义评分与向量检索。 2026 年路线图将在此基础上进一步扩展:
- 全局索引增强与延迟物化( Lazy Materialization),用于优化 TopN 语义检索查询,降低数据扫描量 ;
- 将向量能力延伸至开放湖 仓格式——具体包括 Iceberg 与 Paimon——支持对数 据湖表直接执行向量搜索,无需数据迁移;
- 索引优先访问路径优化, 以降低检索延迟。
Variant 类型与半结构化存 储
在 3.1 版本中引入的 Variant 类型专
为处理 JSON 数据而设计,2026 年的扩展计划将重点支
持深度嵌套 JSON 结构,并优化稀疏列与高基数字符
串列的存储效率。最终目标是让 Schema-on-Read JSON
工作负载——即 AI 应用日志的主
流数据格式——达到与列式存储等同的查询性能。
列式能力的扩展工作还包括:列级部 分更新、宽表索引优化,以及对超高 列数表的增强处理能力——这 是 LLM 输出与 Agent 状态序列化模式带来的直接需求。
AI SQL 与多模态处理
路线图引入了 AI SQL 构造,并
结合 Python UDF 支持,旨在数据库引擎内部
实现覆盖数据预处理、特征提取、向量构建与分析的端
到端处理管道。与此同时,路线图还规划了全新的 File 数据类型,其语义随上下文动态变化:在
标准 SQL 上下文中提供文件元数据访问,在
AI SQL 上下文中则直接处理文件内容。这一设计面向音
频、视频、图像等多模态数据,无需依赖外部预处理管道。
值得持续关注的动向
- 版本发布节
奏:路线图未明确说明十亿级向量支持及
File类型等特性的具体发布时间。建议持 续关注 Apache Doris GitHub 仓库中针对 2026 路线图各条 目的 Milestone 标记进展。 - OpenTelemetry 集成深度:路线图提及了面向 AI 可观测性的 Open Telemetry 生态集成,但具体实现方式尚不明朗—— 究竟是 OTLP Ingest Endpoint、Collector 插件,还是查 询层的 Schema 约定——这 将直接决定这是一次真 实的可观测性布局,还是仅停留于市场定位层 面。
- Lakehouse 向量支持落地情况:路线图声称将 支持直接对 Iceberg 与 Paimon 表执行向量搜索而无需数据迁移。若 能如期交付,将成为极具分 量的差异化竞争优势。建议追踪该能力是 否在 2026 年 Q1 的候选发布版本中出现。
- 竞争对手的应对动作:ClickHouse 近期在 JSON 与 半结构化支持方面持续发力;Databricks 在向量与搜索领域的并 购动态,也与 Doris 的 HSAP 定 位形成直接交叠。值得留意双方未来可 能发布的基准测试报告。
- 社区采用信 号:路线图提到 3.1 版本已在半结构化分 析场景中落地生产环境。附带查询性能数据的 具体案例研究,将是验证 4.0 向 量能力是否达到生产级水准的第一个外部参照 。