代立冬
白鲸开源联合创始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金会正式成员,Apache 孵化器导师,ApacheCon Asia 大数据论坛主席。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。白鲸开源联合创始人代立冬在报告中对开源大数据领域发展进行了解读,以下为原文。
数据技术快速更迭, DataOps 应运而生
2022 年的大数据发展如火如荼,OLAP、数据湖、数据集成、DataOps、MLOps 等领域非常火热,企业数字化、数智化发展十分蓬勃,开源原生公司发展迅速,数据湖三剑客 Apache Iceberg、Apache Hudi 加上 DataBricks 主导的 Delta Lake 都已经有商业化公司的助力。数据领域的估值愈发突起,比如 DBT Labs 估值已经达到 40 多亿美金,Airbyte 估值已经 15 亿美金。国内以天谋科技、思斐、SelectDB、白鲸开源为代表的大数据开源原生公司开始展露头角。
数据技术正在快速迭代,且迭代速度比以往任何时候都更快,每年新诞生的技术多达几十种,在此的背景下,DataOps 应运而生。DataOps 围绕云原生、敏捷智能化、多云能力等方向重构现代数据技术栈,涵盖了现代数据处理的整个生命周期,包括数据采集、数据加工(ELT/ETL)、数据集成、数据安全、数据治理等多个方面,利用 DataOps 可以高效打造现代数据智能高速公路。
根据 Gartner 的总结,我们来看一下 DataOps 在数据运营体系关键要素中的作用:
(1)流程控制:在 DataOps 中,自动化测试和统计流程控制在数据管道的每一步运行,过滤和消除数据错误,这些数据错误会破坏分析,并产生大量计划外工作影响生产效率。
(2)变更管理: DataOps 关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。
(3)并行开发:DataOps 组织并划分数据开发各个阶段,以便团队成员可以高效地协同工作,而不会发生资源冲突。
(4)虚拟化技术环境: DataOps 会虚拟化技术环境,以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程,并快速流向生产环境。当需要时,数据分析师可以快速启动一个开发环境,其中包括所需的工具、安全访问、数据、代码。
(5)复用:DataOps 支持复用模型,标准化被广泛使用的功能和分析组件,并简化虚拟环境之间的迁移。
(6)响应能力和灵活性:DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。
(7)快速变化:DataOps 将构建技术环境,以实现尽可能短的开发周期时间,同时满足数据使用者的要求。DataOps 的设计理念就是基于变革,DataOps 体系结构将动态数据处理能力视为 “核心思想”,而不是 “亡羊补牢”,做事后的更改。
(8)团队协同:DataOps 协调任务、角色和工作流,以打破不同数据团队和业务团队之间的障碍,以便更好地协同工作。
可以说,DataOps 是快速实践数字化转型的理论指导,贯穿于现代数据技术栈的始末,DataOps 也是降本提效的最佳路径,实践 DataOps 路径的收益立竿见影。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:https://gitee.com/report/china-open-source-2022/