数据智能基础设施升级窗口将至?看九章云极DingoDB如何击破数据痛点


作者 |宋慧
AI 深入应用,以及数字化与新商业环境的挑战下,对数据的管理与应用被企业和 IT 界提到了更重要的位置。CSDN 的《新程序员》杂志第二期做了主题为“新数据库时代”的系列专题报道,此外,分析与咨询机构在研究与发表的报告中,也印证了这一趋势。德勤在刚刚发布的《2022年度技术趋势》中,第一个趋势即是数据相关,表示数据共享趋势将加速。Gartner 发布 2022年数据分析十二大趋势,将数据分析提升到企业创新起源的高度。
不过从最早的传统关系型数据库,到 Hadoop、Spark 大数据应用,再到数据仓库、数据湖,今年湖仓一体、流批一体等实时数据处理被广泛关注,数据赛道呈现了多种需求与多种方案混杂的形态。究竟该如何理解数据的重要性,以及选择什么样的数据策略,是数据从业者都需要去厘清的内容。近日,CSDN 专访了专注于数据智能基础设施的软件厂商九章云极 DatatCanvas 董事长方磊博士,听听他的理解与实践经验。

TP、AP 之后“第三份数据”兴起,引发数据热潮与系统升级机会

在 IT 系统发展中,事务型数据(TP)与分析型数据(AP)是最典型的两类数据,以往数据与报表只是企业内部使用,例如白天的业务数据在晚上统一汇总,每天只更新一次(T+1),因此这些数据具有低并发、低频率的特点。
随着商业的创新式发展,数据逐步从内部转为外部用户使用,应用操作即时就需反馈结果,方磊举例道,如手机银行 App 如果转账失败需要立刻恢复余额,专业术语成为“冲账”。因此他表示,在 TP、AP 之后出现了“第三份数据”,它需要与内部系统直连,并能快速、高并发地完成外部请求。
为了处理“第三份数据”,新的数据系统既要有数据仓库的特性,又要兼顾交易数据库的特性,同时具有 severing 的能力。因此出现了多个数据系统,并逐步发展为统一架构之上,流批一体、湖仓一体等实时数仓随之产生。不过方磊提到,现在湖仓一体、流批一体侧重于在计算层将结构化、非结构化数据统一,实现统一计算。例如 Databricks 提出的 Lakehouse,这是因为在美国的 IT 系统中,公有云的发展已经解决了数据存储层的问题。
但中国 IT 是更为分散的私有云、混合云市场。传统企业中,数据在存储层只是由 Oracle、Teradate、MPP 上一代的数据仓库过渡到了 Hadoop ,数据可能存在 HDFS、或 MPP 数据库,或在云上的对象存储中,各类实时数仓不同的设计,都需要解决数据不一致,这一最大的痛点。
除了实时性的需求之后,数据业务正在从大量事后统计,转向事中与事前(如金融监管)预防,另外在以往系统内 BI 应用之外,数据需要支持众多新的 AI 应用,而工业互联网领域的数据应用也在弯道超车,如工业质检、风力发动机转速扭矩调节,等物联网与 AI 应用也带来数据实时性的需求。
这其中,AI 人工智能场景应用对于数据的需求尤为急迫,因为算法与模型都需要更高效和灵活的数据系统去支撑。例如基于 AI 模型的在线实时金融产品,数据早已不是仅限于内部使用,外部对于数据的查询等需求,需要数据系统的分析能力能够实时透传到外部,为外部用户提供查询(如金融产品数据、随股市变化的金额数据等)。以上这些新场景、新应用、新需求,都让实时性数据进一步成为技术界的热点。
不过方磊认为,从更宏观的视野来看,实时数仓不应仅仅是离线数据库的补充和“补丁”。以往数据处理的痛点并未被彻底完美解决,所以现在更是整个数据基础设施与系统架构迭代升级的机会窗口,也因此国内外出现了各种由创业公司、云厂商推出的多个数据系统。

DingoDB:解决实时数据分析最痛的点

在数据基础设施的升级中,各类公司对数据系统的设计分为了很多流派。有些系统针对传统数仓的性能做了调优提速,已经能满足目前 80% 的数据业务需求,方磊称之为改良派,但这类系统仍无法解决高并发与外部用户使用的难题。另一类系统,则打破了 TP、AP 数据的割裂性,所有数据全部实现流批一体,不过这也会带来对内存等计算成本的高昂开销。第三种,也是九章云极DataCanvas选择的路线,设计一个既支持“批数据”又支持“流数据”,并兼顾不同类型存储摆放需求的数据系统。
现在,九章云极 DataCanvas 推出了实时交互式分析数据库 DingoDB, DingoDB 作为实时数据的通用系统,像 hadoop 一样具有松耦合与灵活性,但同时像 Oracle 具有稳定性且易于运维。
更进一步,在数据系统的各环节中,方磊认为,数据的变换已经被业界很好的解决(如开源 Flink 已经可以很好解决实时的数据变换 Realtime ETL),而之后的数据查询仍然是薄弱和待提升的环节。DingoDB 借鉴了 TP 系统和 AP 系统各自的优点,结合 Flink ETL,在存储海量数据的同时,能够进行高并发的数据查询,实时的数据分析。数据从各种类型的渠道导入 DingoDB,借助 DingoDB 的高并发查询,实时数据分析和多维分析的能力,来支撑实时性、需要在线决策的数据业务应用。

方磊介绍,DingoDB 最核心的技术特性,是高效支持高频修改和查询、实时交互式分析、实时多维分析等功能,兼具行列混存等技术创新,详细的来说:

行列混合:DingoDB 采用了统一的存储的设计,支持行存、列存和行列混合的存储形式。
标准 SQL:DingoDB 支持 ANSI SQL 语法,可以和 Calcite 客户端、BI 报表工具无缝衔接。
实时高频更新:DingoDB 能够基于主键,实现数据记录的 Upsert、Delete 操作;同时数据采用多分区副本机制,能够将 Upsert、Delete 操作转化为 Key-Value 操作,实现高频更新。

DingoDB 架构图

在存储层,DingoDB 与被频繁比较的 Databricks 的 Delta Lake 最大的不同点,是 DingoDB 采用了分布式存储架构,以适应国内用户存储分散的现状,而 Delta Lake 在存储层更多是云上的对象存储的抽象定义,而非真正的存储,这并不适应目前国内云计算的现实情况。
方磊对 CSDN 提到,在企业中,算法和数据不分家,并将越来越紧密结合。所以成立之初,九章云极 DataCanvas 推出 AI 机器学习平台 DataCanvas APS,并在多个关键行业积累了大量的落地场景与案例经验,现在更进一步,针对 AI 分析依赖高效、实时性数据这个核心需求,推出的实时数据系统 DingoDB ,则是让数据从处理到 AI 分析,可以在一站式的平台上完成。
面对数据领域层出不穷的新技术,方磊表示,实时数仓、湖仓一体都是数据处理与分析应用的新战术,而从战略层面来说,方磊认为,九章云极 DataCanvas 专注和努力在做的,是将 AI 的分析、数据等开放能力,组成一个高效的、互相紧密联系与流动的体系。与 Databricks、亚马逊云科技一样,九章云极DataCanvas 将致力于打造 AI 与数据统一的、一站式的数据科学平台,Data analytics and AI on one platform。以过硬的技术与产品去应对数据处理与分析的效率变革与挑战,将是数据赛道永恒的主题,我们期待九章云极 DataCanvas 与更多中国优秀数据厂商的表现。

导读:水下的“甜脆果”,是菜也是果,儿时当零食吃,因采挖难而少人种天气逐渐冷起来了,而北方地区此时基本都已经入冬了,好些地方都已经开始供暖了,农民又要开始“猫冬..

澎湃新闻记者 蒋子文3月24日以来,安徽省芜湖市繁昌区4天内新增新冠肺炎本地确诊病例5例、无症状感染者21例。近日,芜湖市已宣布打响“繁昌保卫战”。3月28日,芜湖市..

很多朋友对于excel如何查找重复数据和不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!在excel表中怎么查找重复数据 表格数据比较长时,需要查找一些重复数据,使用countif函数一下子就可以解决。以下是我为您带来的关于excel表中查找重复数据,希望对您有所帮助。exce..

很多朋友对于excel横排数据变竖排和excel中横排数据变竖排不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!excel怎么把横排名字转成竖排Excel表格文字横排设置成竖排技巧方法一、利用文字方向来实现竖排首先,光标单击选中需要竖排的单元格,然后单击菜单栏的“格式”下拉列..

资料图算起来,从2月24日开战,这场二战后欧洲最大的地面战争,已经进入第二个月。两军交战,损失到底怎样?当然,这肯定是一个罗生门。看俄军的简报,乌军肯定早已被彻底..

【环球时报综合报道】在美国总统拜登在欧洲访问之际,俄乌战场上的炮火未停。《基辅独立报》引述乌克兰军参谋部消息称,有情报表明俄罗斯希望在卫国战争胜利日5月9日前结束..

俄国防部继续举行特别军事行动简报会,俄军两上将在行动简报会上发言,披露战果与损失情况3月26日晚间,俄联邦国防部进行了最新一轮关于俄武装部队在乌克兰特别军事行动的..

随着我国汽车保有量高速增长,堵车多,停车难,交通事故也是频发。只要有轻微的事故,一般都得经过钣金喷漆后期修理后才能恢复本来面貌。因此汽车钣金喷漆技术也越来越吃香..

演示机型:Iphone 13系统版本:iOS15.4苹果已卸载应用怎么删除数据共有4步,以下是Iphone 13中卸载应用后删除数据的具体操作步骤:操作/步骤1设置中点击通用首先..

演示机型:Iphone 13系统版本:iOS15.2苹果的系统数据怎么清理共有3步,以下是Iphone 13中清理系统数据的具体步骤:操作/步骤1通用中进入储存空间在设置的通用界..

2023年1月1日,南京,游人在夫子庙景区赏灯拍照。 视觉中国 资料图作为“防疫新十条”后的首个小长假,2023年元旦假期不少地方的旅游业正快速回暖。2023年1月1日..

本文由 CSDN 来源发布

数据智能基础设施升级窗口将至?看九章云极DingoDB如何击破数据痛点

评论问答