pandadb:一种异构数据智能融合管理系统-利来国际app

0
pandadb:一种异构数据智能融合管理系统-沈志宏/赵子豪/王华进/等.pdf
235
18页
5次
墨值0
软件学报issn 1000-9825, coden ruxuew
journal of software, [doi: 10.13328/j.cnki.jos.006180]
©中国科学院软件研究所版权所有.
pandadb:
一种异构数据智能融合管理系统
沈志宏
1
,
赵子豪
1,2
,
王华进
1
,
刘忠新
1
,
1,2
,
周园春
1
(中国科学院计算机网络信息中心 北京 100190)
2
(中国科学院大学 北京 100049)
通讯作者: 沈志宏, e-mail: [email protected]
摘要: 随着大数据应用的不断深入,对大规模
结构化
结构化/非结构化数据在存储管理方式、
信息获取方式
本文提出了适用于异构
数据融合管理和语义计算的属性图
于智能属性图模型提出异构数据智能融合管理系统
pandadb
询机制、属性协存和ai 算法集成机制.性能测试和
应用
制对大规模异构数据的即席查询和分析具有较好的
性能
融合数据管理场景.
关键词: 数据管理系统;异构数据融合;图数据模型;
即席查询
中图法分类号: tp311
中文引用格式: 沈志宏,赵子豪,王华进,刘忠新,胡川,
周园春
http://www.jos.org.cn/1000-9825/6180.htm
英文引用格式: shen
zh, zhao zh, wang hj, liu zx, hu c, zhou yc
heterogeneous data.
ruan jian xue bao/journal of software, 2021 (in chinese).
pandadb: an intelligent management s
ystem
shen zhi-hong
1
, zhao zi-hao
1,2
, wang hua-
jin
1
(
computer network information center, chinese academy of sciences, beijing 100190, china
2
(
university of chinese academy of sciences, beijing 100049, china
abstract:
with the development of big data application, the demand of large
analysis is becoming increasingly prominent. however, th
e differences in management, process,
brings challenges for fusion management and analysis.
this paper propose
fusion management and semantic computing, defines related
property
model, this paper implements pandadb,
an intelligent heterogeneous data fusion management system
storage mechanism, query mechanism, property co-
storage, ai algorithm scheduling and distributed architecture of pandadb. test
experiments and cases show that the co-
storage mechanism and distributed architecture of
effects, and can be applied i
n some scenarios of fusion data intelligent management such as
disambiguation.
key words: data management system;
heterogeneous data fusion
基金项目: 中国科学院战略性先导科技专项b类课题(
xdb38030300
法工作专项(2019im020100),中国科学院信息化专项课题(
xxh13503
foundation item: strategic priority
research program of cas (xdb38030300)
of china(61836013);
ministry of science and technology innovation methods special work project under grant (2019im020100)
informatization plan of chinese academy of
sciences(xxh13503)
收稿时间: 2020-07-20; 修改时间: 2020-09-03; 修改时间
: 2020
http://www.jos.org.cn
tel: 86-10-62562563
一种异构数据智能融合管理系统
周园春
1,2
结构化
/非结构化数据进行融合管理和分析的需求日益凸显.然而,
信息获取方式
、检索方式方面的差异给融合管理和分析带来了技术挑战.
数据融合管理和语义计算的属性图
扩展模型,并定义了相关属性操作符和查询语法.接着,
pandadb
,并详细介绍了pandadb的总体架构、存储机制、查
应用
案例证明,pandadb 的协存机制、分布式架构和语义索引机
性能
表现,该系统可实际应用于学术图谱实体消歧与可视化等
即席查询
;人工智能.
周园春
.pandadb:一种异构数据智能融合管理系统.软件学报.
zh, zhao zh, wang hj, liu zx, hu c, zhou yc
. pandadb: an intelligent management system for
ruan jian xue bao/journal of software, 2021 (in chinese).
http://www.jos.org.cn/1000-9825/6180.htm
ystem
for heterogeneous data
jin
1
, liu zhong-xin
1
, hu chuan
1,2
, zhou yuan-chun
1
computer network information center, chinese academy of sciences, beijing 100190, china
)
university of chinese academy of sciences, beijing 100049, china
)
with the development of big data application, the demand of large
-scale structured/unstructured data fusion management and
e differences in management, process,
retrieval of structured/unstructured data
this paper propose
s an extended property graph model for heterogeneous data
property
operators and query syntax. based on the intelligent property graph
an intelligent heterogeneous data fusion management system
. this paper depicts the architecture,
storage, ai algorithm scheduling and distributed architecture of pandadb. test
storage mechanism and distributed architecture of
pandadb have good performance acceleration
n some scenarios of fusion data intelligent management such as
academic knowledge graph entity
heterogeneous data fusion
; graph data model; ad-hoc query; ai.
xdb38030300
);国家自然科学基金重点项目((61836013);科技部创新方
xxh13503
)
research program of cas (xdb38030300)
; key project of national natural science foundation
ministry of science and technology innovation methods special work project under grant (2019im020100)
;
sciences(xxh13503)
: 2020
-11-06; jos 在线出版时间: 2021-01-20
沈志宏等: pandadb:一种面向异构数据的智能融合管理系统
2
1 引言
在大数据时代,随着各类应用的推广使用,数据产生速度越来越快、数据体量越来越大.一方面,数据采集技
术的迅猛发展使得数据的结构更多样、种类更丰富.数据表现出多元异构的特点,非结构化数据在其中占有较
大比重.有研究表明,视频、音频、图片等非结构化数据占据高达90%的比例
[1]
;另一方面,近年来,数据中台、
知识图谱等数据管理分析技术得到了广泛的应用.数据中台要求结构化/非结构化数据能够在统一的环境中得
到良好的治理,以便支持多种应用;知识图谱,特别是多模态知识图谱
[2]
,要求对底层结构化/非结构化数据进行
融合关联分析,并支持用户进行交互式查询.这些技术均提出对结构化/非结构化数据进行融合管理和分析的需
.
结构化数据通常具有较为规范、统一的形式.目前,针对结构化数据的管理和分析,已具有成熟的数据模型、
查询语言和管理系统.与结构化数据相比,非结构化数据的管理方式存在着诸多差异,这给高效的结构化/非结
构化数据的融合管理和分析带来了多方面的挑战:
(1) 分离的存储管理方式,给结构化/非结构化数据的统一管理带来挑战.相对于结构化数据,非结构化数
据占有更大的空间,出于读写效率考虑,非结构化数据往往单独存在于文件系统,或者对象存储系统,
这使得维护结构化/非结构化数据一致性的难度增大;
(2) 差异化的信息获取方式,给结构化/非结构化数据的统一分析带来挑战.相对于结构化数据,非结构化
数据内容比较复杂,为了实现高效检索和分析,往往需要预先引入模式识别、深度学习等方法实现信
息抽取和数据挖掘,从而获取非结构化数据所蕴含的内在信息;
(3) 不一致的检索方式,给结构化/非结构化数据的一致化即席查询带来挑战.与结构化数据具有较为成
熟的sql、类sql 查询语言的现状不同,非结构化数据的信息检索往往缺乏统一的操作模式和查询
语法,目前采用的多是逐案的个性化方案.
为实现结构化/非结构化数据的融合管理和分析,需要从模型层面出发,设计统一的表示和查询方法.传统
的关系模型、属性图模型不能有效揭示和表示非结构化数据的内在信息.有学者提出将数据和schema 表示为
边标记图,以此替代非结构化数据底层类型约束的缺失
[3]
.但该方法仅提出一种为非结构化数据添加schema
方法,不能实现对非结构化数据中信息的自由检索.li 等人提出从基本属性、语义特征、底层特征和原始数据
等四个角度定义非结构化数据
[4]
,但这种方法依赖于预定义,并不适用于非结构化数据的交互查询.近年来有学
者提出在非结构化数据流上抽取rdf三元组的方法
[5]
,该方法只实现了三元组的抽取,不能支持对非结构化数
据内在信息的交互式查询,且并不具备数据管理系统的基本能力.
另外一种融合管理的路线是将非结构化数据在数据库中存储为二进制大对象(blob,binary large
object,当应用获取数据的时候,返回一个二进制数组或者数据流.这种方法在性能和功能上都不令人满意
[6]
.
针对此问题,研究人员提出了一系列非结构化数据管理系统
[7][8][9]
,这些系统综合考虑了非结构化数据体积大、
结构复杂的特点,设计了合适的存储模型,一定程度上解决了非结构化数据的存储和管理问题,但其提供的查询
服务仅基于文件对象本身和元数据,不能提供对非结构化数据内在信息的查询能力.
由此,本文提出属性图扩展模型及其查询方法.属性图扩展模型在传统属性图的基础增加了对非结构化数
据内在信息的表示能力,以及结构化和非结构化数据之间的互操作能力.在此基础上,本文继而提出基于智能属
性图模型的异构数据智能融合管理系统pandadb.
本文在第2节给出属性图扩展模型和相关概念,包括层叠属性图、智能属性图、次级属性等,并提出属性
操作符和查询语法.在第3节中给出pandadb的系统设计与具体实现.在第4节中通过实验和案例验证该系统
的效率及可行性.5 节介绍与本文研究相关的工作.最后,对未来研究可能面临的挑战进行展望.
2 概念设计
传统属性图模型无法有效表示非结构化属性,本节提出属性图扩展模型,以解决非结构化属性的有效表示
of 18
【利来手机国际的版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:[email protected]进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
周榜 月榜