如何“驯服”并激活非结构化数据


根据IDC的最新报告《2021-2025年全球数据及存储领域结构化和非结构化数据预测(2021年7月)》,超过90%的现有数据是非结构化数据,并且在过去十年中大体保持不变。然而,随着元数据的增加,越来越多的非结构化数据被“驯服”并进入结构化数据范畴

其中有一个关键的驱动因素,那便是新型软件的出现,它使得非结构化数据的内容能够得到分析并提供背景信息。举例来说,视频分析软件可以对文件中的图像进行标记,并赋以特定的索引以便存储和搜索。这听起来也许稀松平常,实现起来却有诸多挑战,但这意味着非结构化数据会变得极具价值。

我们先来了解几个定义。非结构化数据是指原始格式的信息,它通常驻留于采集的源头或附近。非结构化数据代表着采集的所有原始数据类型,包括尚未编目或分析的数据。而结构化数据则是有组织的定量数据,其中最为常见的是数字数据和文本数据,它们以某种标准格式存在于文件或记录的固定字段中。电子表格或关系型数据库中驻留的信息是结构化数据的典型例子。这种类型的结构使得我们在查找特定数据或信息组时能够简便地查询数据。

非结构化信息也称为定性数据,也就是说它只是观察或记录的信息。举例来说,工厂的物联网(IoT)传感器采集设备性能方面的数据,然后,这些信息被发送至服务器,并以非结构化的格式进行存储,例如:PDF和视频文件。

非结构化数据的其他例子还包括卫星照片、天气报告、患者生物信号数据,以及尚未以有组织的方式标记或编目的视频图像。它们的共同点是数据均为被动采集和传输,没有预定义的组织格式。当非结构化数据作为海量数据集的一部分进行审查和理解时,它非常有助于发现大规模的发展趋势和构建预测模型,但为了业务目的而进行搜索和分析却比较困难。


结构化数据和非结构化数据之间的主要区别在于格式。非结构化数据以其原生格式存储,例如:PDF、视频和传感器输出。结构化数据严格以预定义的形式呈现,或者带有描述它的预定义能指,以便轻松置入表单、电子表格或关系型数据库。

非结构化数据通常存放于数据湖,所谓数据湖本质上是一个以各种格式存储原始数据的存储库。结构化数据则驻留于数据仓库,这种存储库只接受按照预定义规范格式化的数据。数据湖是一个存储非结构化数据的存储库,但它也可以存储结构化数据,而数据仓库只能存储有组织和格式化的结构化数据。

无论是在数据湖中还是在数据仓库中,信息都是存储于某种类型的数据库。其主要区别在于:结构化数据存储在关系型数据库中,以结构化查询语言(SQL)、PostgreSQL、MongoDB 等组织格式按行列进行存储。这些格式使得用户或机器搜索、整理和处理结构化数据变得非常简便。相比之下,非结构化数据则存储在非关系型数据库中,例如:NoSQL。


在分析方式以及处理和操作所需的工具和人员方面,这两种类型的数据也有所不同。非结构化数据通常借助数据堆叠、数据挖掘等技术进行分析,这些技术可以处理元数据并得出较为一般性的结论。结构化数据则多采用数学方法进行分析,例如:数据分类、聚类和回归分析。在工具和技术方面,结构化数据比较便于管理和使用分析工具。用于处理结构化数据的工具示例如下:

关系型数据库管理系统(RDBMS)

客户关系管理(CRM)

联机分析处理(OLAP)

联机事务处理(OLTP)

能够处理多种格式的大型数据集的软件,通常用于管理和分析非结构化数据。用于管理非结构化数据的工具示例如下:

NoSQL数据库管理系统(DBMS)

AI驱动型数据分析工具

数据可视化工具

非结构化数据通常需要由训练有素的专家进行管理,并且相较于结构化数据,其软件处理工具也须具备更高级的人工智能(AI)和预测建模功能。机器学习便是用于分析非结构化数据的技术策略之一。


无论是原始的还是经过初步处理的视频图像,都需要占用大量的存储空间。这推动了以硬盘为中心的大容量存储系统的需求不断攀升,而硬盘技术的持续发展也使得进一步扩大容量成为了可能,从而继续提供显著的总体拥有成本优势。

在源头附近访问非结构化数据,并根据需要将其移动至各种私有及公共云数据中心以用于不同的目的,这种需求也推动着封闭、专有、孤立的IT架构向开放、可组合、混合式的IT架构转变,以便数据在分布式企业范围内自由而高效地移动。

大容量存储系统,例如希捷的新型Exos® CORVAULT™,可以将大量的非结构化数据存储于区域边缘和数据中心环境。这种高密度的存储系统可以基于希捷突破性的存储架构提供SAN级的性能,该架构融合了第六代VelosCT™ ASIC、ADAPT纠删码数据保护和硬盘自主重建功能。

此外,希捷的新型Lyve Mobile等模块化存储解决方案还提供了一种更好的方式,通过道路运输将大量数据从一个存储位置物理移动至另一个存储位置。


目前,两种类型的数据各有用途。非结构化数据是设备或软件的原始输出,这些采集来的信息以原始格式移动至数据湖。结构化数据以数字或文本格式进行组织,可以按预定义的参数进行编目、组织、重组和分析。

中国互联网行业正在处于高速发展期,根据国际数据公司(IDC)预测,到2023年,中国的数据量将达到40ZB,其中80%超过是非结构化数据。释放非结构化数据背后的价值成为国内互联网企业角逐的目标。随着越来越多的非结构化数据进入结构化IT环境,尤其是来自于大量物联网设备的流媒体数据和大量的标记视频数据,机构有机会将这些数据转化成为信息和知识。当非结构化数据作为海量数据集的一部分进行审查和理解时,非常有助于发现大规模的发展趋势和构建预测模型。具有远见卓识的人们可以从中获取全新的、创新的洞察力,以推出新产品和新服务,从而充分挖掘这口蕴藏丰富的智慧之井。

文/孙丹,希捷科技全球高级副总裁暨中国区总裁



往期回顾




视频监控芯片技术趋势:超高清和智能算力成主流

后疫情时代全球安防市场将回温

2022年智能安防趋势性技术成熟度与适用性指数调研

导读:水下的“甜脆果”,是菜也是果,儿时当零食吃,因采挖难而少人种天气逐渐冷起来了,而北方地区此时基本都已经入冬了,好些地方都已经开始供暖了,农民又要开始“猫冬..

澎湃新闻记者 蒋子文3月24日以来,安徽省芜湖市繁昌区4天内新增新冠肺炎本地确诊病例5例、无症状感染者21例。近日,芜湖市已宣布打响“繁昌保卫战”。3月28日,芜湖市..

很多朋友对于excel如何查找重复数据和不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!在excel表中怎么查找重复数据 表格数据比较长时,需要查找一些重复数据,使用countif函数一下子就可以解决。以下是我为您带来的关于excel表中查找重复数据,希望对您有所帮助。exce..

很多朋友对于excel横排数据变竖排和excel中横排数据变竖排不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!excel怎么把横排名字转成竖排Excel表格文字横排设置成竖排技巧方法一、利用文字方向来实现竖排首先,光标单击选中需要竖排的单元格,然后单击菜单栏的“格式”下拉列..

资料图算起来,从2月24日开战,这场二战后欧洲最大的地面战争,已经进入第二个月。两军交战,损失到底怎样?当然,这肯定是一个罗生门。看俄军的简报,乌军肯定早已被彻底..

【环球时报综合报道】在美国总统拜登在欧洲访问之际,俄乌战场上的炮火未停。《基辅独立报》引述乌克兰军参谋部消息称,有情报表明俄罗斯希望在卫国战争胜利日5月9日前结束..

俄国防部继续举行特别军事行动简报会,俄军两上将在行动简报会上发言,披露战果与损失情况3月26日晚间,俄联邦国防部进行了最新一轮关于俄武装部队在乌克兰特别军事行动的..

随着我国汽车保有量高速增长,堵车多,停车难,交通事故也是频发。只要有轻微的事故,一般都得经过钣金喷漆后期修理后才能恢复本来面貌。因此汽车钣金喷漆技术也越来越吃香..

演示机型:Iphone 13系统版本:iOS15.4苹果已卸载应用怎么删除数据共有4步,以下是Iphone 13中卸载应用后删除数据的具体操作步骤:操作/步骤1设置中点击通用首先..

演示机型:Iphone 13系统版本:iOS15.2苹果的系统数据怎么清理共有3步,以下是Iphone 13中清理系统数据的具体步骤:操作/步骤1通用中进入储存空间在设置的通用界..

2023年1月1日,南京,游人在夫子庙景区赏灯拍照。 视觉中国 资料图作为“防疫新十条”后的首个小长假,2023年元旦假期不少地方的旅游业正快速回暖。2023年1月1日..

12月20日晚间,蔚来创始人、董事长李斌在蔚来官方社区就用户数据泄露一事发文致歉。李斌表示:“保护好用户信息安全是我们的责任,我们没有做好,向大家深表歉意,会对此次..

大家好,小编来为大家解答微信数据损坏什么意思这个问题,微信数据有损坏什么意思很多人还不知道,现在让我们一起来看看吧!为什么微信会突然数据损坏?由于手机剩余空间不足可能会导致微信数据损坏。按照以下方法操作解决:1、清理手机内存,卸载手机上不常用的软件确保手机空间充足。2、重新登录微信..

“数据二十条”全文:中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见新华社北京12月19日电 数据基础制度建设事关国家发展和安全大局。《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)19日对外发布。意见出台的总体考虑是什么?..

本文由 安全自动化 来源发布

如何“驯服”并激活非结构化数据

评论问答