笔者在 2021 年底,曾应科技媒体 InfoQ 的邀请,总结了 2021 年的数据平台架构(详见:解读数据架构的 2021:大数据 1.0 体系基本建成,但头上仍有几朵乌云),提出了的 2021 年的 5 个热点、4 个趋势和 3 个挑战。在过去的两年,数据架构领域发生了很多重大变化(很多是拐点级变化),例如大模型技术突破、向量检索成为热点、半 / 非结构化类 Dark Data 开始被关注等等。作为数据平台从业者,笔者经常被问到“下一代数据平台发展趋势?”或者“AI 平台和数据平台是否应该一体”等问题。
因此,本文试从系统架构的角度,回顾 2021 年预测 / 展望的落地情况(见下图),总结 2021 到 2023 年数据平台体系架构的三个演进热点,展望面向未来的三个数据平台发展趋势,以及三个未解的难题。
2024 年,数据平台领域发展到哪一阶段
数据架构自 70 年代由关系型数据库开始发展,前后经历了三个阶段:
数据平台最早来自数据库技术,1970 年关系型数据库发布,以事务数据处理技术为主,以 Oracle,SQLServer 为代表,已经发展 50 年。总体市场规模最大,增长放缓。
数据平台二次革命来自大数据技术,2000 年因大搜索需求提出(规模带来质变),并进化成数据平台 2.0,以大规模数据分析技术为主,以 Snowflake/BigQuery/Hadoop 体系为代表,已经发展 20 年。总体市场规模中等,增长仍然迅速。
第三次革命来自 AI(深度学习 /LLM)带来的突破(规模带来质变),扩展能处理的数据的种类(从结构化,到半 / 非结构化),也扩展计算引擎(从关系型数据分析计算到基于大模型的内容理解与逻辑推理)。
数据分析领域仍然保持增长,但产品 / 厂商逐步收敛。AI 成为数据架构的新驱动力
一项技术是成功还是失败,关键期往往在低谷期到普惠期之间,一旦进入成熟期,它会以普惠产品的形态保持持续的发展。因为已经被普遍采用,变成事实标准,在没有跳变类技术出现的情况下,会一直发展下去。我们身边的内燃机技术、移动通信技术、数据库技术等都持续发展。
但相比数据库技术,大数据技术处在成熟早期,仍然有较大市场空间,并保持高速增长。上图同时对比了数据库领域的领军企业 Oracle 和大数据领军企业 Snowflake,成立 46 年的 Oracle 在 2023 年有 48B$ 的营收规模,是成立 12 年的 Snowflake 2B$ 营收的 20x,但 Snowflake 有 50% 的同比增长率,是 Oracle 5% 增长率的 10x。如果双方保持当前增长率,Snowflake 会在 7-8 年后超越 Oracle。
相比 2021 年火热的数据类新公司成立和融资(2021 年 Kafka 背后商业公司 Confluent 上市,Clickhouse、Iceberg 商业公司成立,Databricks7 月内两轮融资 26 亿美元),2024 年数据平台领域投资趋于冷静,厂商和产品逐步开始收敛,这也带动了技术架构的收敛(下节展开)。
数据分析架构趋同,但 Lambda 架构远不够完美。数据 AI 架构新兴,高速迭代中
大数据技术为代表的数据分析架构发展 20 年,总结当前典型的数据平台架构是计算部分采用 Lamdba 架构,存储层由数据湖或者数据仓库构建。AI 相关组件尚在发展成熟中,没有确定性的架构。
以下通过几个不同场景不同用户的数据架构实例,来总结当下数据平台的典型架构: