《数据空间中基于语义的实体搜索》杨丹著|(epub+azw3+mobi+pdf)电子书下载

时间: 2022-10-17 08:58:52  55 语义 语义 epub

图书名称:《数据空间中基于语义的实体搜索》

【作 者】杨丹著
【页 数】 141
【出版社】 沈阳:东北大学出版社 , 2019.10
【ISBN号】978-7-5517-2304-6
【价 格】52.00
【分 类】数据管理-研究
【参考文献】 杨丹著. 数据空间中基于语义的实体搜索. 沈阳:东北大学出版社, 2019.10.

图书目录:

《数据空间中基于语义的实体搜索》内容提要:

本书是作者近十年科研的成果集合,围绕数据空间中基于语义的实体搜索关键技术展开,全书共分7章。第1章首先阐述背景及意义,并介绍数据空间概念、特性和国内外研究现状。第2章主要介绍中一种以实体为中心的数据模型。第3章主要介绍数据空间中基于聚类的实体关联关系挖掘算法CFRQ4A。第4章主要介绍数据空间中基于时间的集合式实体识别算法T-CER。第5章主要介绍数据空间中时间感知的查询时实体识别与数据融合框架Q-ER。第6章主要介绍数据空间中基于关联关系的关键字查询意图消歧算法。第7章主要介绍语义实体搜索原型系统KeymanticES的设计与实现。

《数据空间中基于语义的实体搜索》内容试读

第1章绪论

第1章绪论

不1.1研究背景和意义

随着数字化技术和互联网的发展,数据管理和计算模式呈现出如下新的特点。一是海量化。全球的数据量在以指数的趋势迅猛增长,目前每年全球至少产生15亿TB的新数据。二是多样化与异构。随着网络技术的发展和Wb技术的日益成熟,Internet收集了海量的信息资源,人们所面临的数据已不再是关

系模型下纯粹的结构化数据,大量的XML文档、文本等半结构化数据,图片、

音频、视频、文档等非结构化数据大量地涌入到应用中。三是松散化。这些资源具有分布分散、结构松散,并且更新变化快等复杂特性。四是共享化。互联网和通信设备的普及使人们能够很容易地实现数据的共享,数据库之间也因此建立起越来越密切的联系。

随着信息技术的不断发展,计算机逐步成为人们日常工作和生活的必备品。同时,E-mail信息、工作文档文件、收集的参考资料、图片和视频等个人信息也在急剧膨胀,并且这些个人数据管理呈现出如下新的特点:数据量成倍增长,数据的更新日新月异;数据的形式趋向多样化,管理的目标包括结构化非结构化和半结构化的数据,以及动态的音频、视频等流数据;数据间的语义关联性更强,而且这种关联更难被发现和提取。这些复杂的特性决定了无法用单一、传统的关系数据库系统来组织和管理新环境下的数据。桌面搜索工具虽然为用户管理个人数据资源提供了方便,但它主要是面向全文的搜索,得到的还是相对“独立的”无关联的资源,并没有打破资源自身的界限。

面对以不同形态存在且相互关联的多种资源信息的混合体,目前还没有一

11

数据空间中基于语义的实体搜索

个成熟的管理软件有效地管理它们,人们还是通过手工对它们进行分门别类的管理或基于桌面搜索管理,无法实现语义查询和进一步深入查询,更不能获得资源之间的关联关系,导致数据资源利用率不高。无论是传统的数据库技术还是面向全文的桌面搜索技术,均已无法满足这些异构多样数据管理的新要求。与新的数据特点相适应,人们对信息的管理能力和服务模式也提出了新的要求,传统的数据库管理系统在这些新的要求面前显得无能无力,不能满足这些复杂数据管理的新要求。数据空间口就是在这一背景下提出的新的概念和技术。数据空间是基于pay-as-you-go思想进行集成的一种数据组织形式,不依赖于严格的数据模式,并且能随着时间演化,在任意时候提供给用户尽最大努力的结果,能够满足上述数据特点的数据管理的要求。数据空间将是数据管理的又一新目标,代表了一种新的管理数据的理念。数据空间技术是数据库管理技术的进一步发展,该技术的发展与成熟将代表数据管理进入一个新的里程碑,数据空间的相关研究成果将为管理开放的数据资源提供良好的支持,达到提高资源利用率和工作效率的目的,具有广阔的前景。

☑1.2数据空间概述

本节首先对数据空间的概念进行介绍;接着对数据空间的特性进行分析、归纳,并且与传统的数据库系统和数据集成系统进行比较。

1.2.1数据空间的概念

数据空间(Dataspace)的概念最初由M.Franklin、A.Halevy和D.Maier几位学者于2005年在SIGMOD Record的论文From databases to dataspaces:a new ab-straction for in时formation management和PODS2006t的论文Principles of dataspacesystems中提出。学者们根据当前数据与信息的增长对数据管理技术需求的发展情况,针对现有传统数据库技术的不足,提出了一种新的信息管理抽象方法,并系统地分析了数据空间技术的目标,以及构建数据空间的支撑平台所面临的挑战。在论文中给出了数据空间及其组件的一个例子(如图1.1所示),将数据空间建模成一系列参与者(participants)和关系(relationships)。图中的大矩形框中表示了数据空间中各种异构类型(结构化、半结构化、非结构化)的数据资源(即参与者)及其彼此间丰富的关系。从图中可以看出,参与者可以是关系数据

12

第1章绪论

Sensor

Catalog

WSDL

RDB

ava

snapshot

1hr updates

SDB

Local

Sensor

Store&

XML

Index

java

Schema mapping

Manually created

Sensor

Search

WSDL

RDB

&query

RDB

XMI

view

replica

Administration

Discovery

Enhancement

图1.1一个数据空间及其组件的例子

库、XML资源库、文本数据库、Wb服务和软件包等,甚至是传感器。矩形框的外围左边和下边分别给出了数据空间的组件(模块),包括目录服务组件、本地存储和索引组件、搜索和查询服务组件、管理组件、发现服务组件和提高组件,用来提供数据空间管理系统的各种管理和支持服务。2006年,A.Halevy等在荣获VLDB十年最佳论文奖的报告Data integration一the teenage years中对数据集成技术所面临的挑战性问题进行了分析,其中包括采用pay-as-you-go数据管理思想的数据空间技术。

数据空间是基于pay-as-you-go思想进行集成的一种数据组织形式。数据空间在本质上可以被看作对数据集成框架的下一步演化,但在集成对象、集成方式等方面与传统的数据集成技术不同。一个数据空间是由一系列相关的异构资源对象集和资源对象间的关联关系集组成的。提供Wb级别的数据集成需要

一个能为现实世界中任意关系提供建模的系统,并且能随着时间演化,在任意时候提供给用户尽最大努力的结果。从数据管理角度来说,数据空间是对新的数据特点的一种刻画,许多在数据管理和相关领域的研究问题都与数据空间相关,因此其主要研究问题包括数据模型、实体识别、模式匹配和模式映射、关键字查询、数据集成等。

数据空间是与主体相关的数据及其关系的集合,数据空间是与主体相对应的,数据空间中的所有数据对于主体来说都是可以控制的。主体相关性和可控性是数据空间中数据项的基本属性。数据空间分为主体数据空间和与之相对的公共数据空间。主体数据空间是公共数据空间的一个子集,随着主体需求的不

31

数据空间中基于语义的实体搜索

断变化,数据项不断从公共数据空间纳入到主体数据空间中。主体、数据集、服务是数据空间的三个要素。主体是指数据空间的所有者,可以是一个人或一个群组,也可以是一个企业;也就是说,一个人可以有一个数据空间,一个项目小组可以有一个数据空间,一个企业可以有它的数据空间。数据集是与主体相关的所有可控数据的集合,其中既包括对象,也包括对象之间的关系。主体通过服务对数据空间进行管理,如数据分类、查询、更新、索引等,都需要通过数据空间提供的服务完成。数据空间是数据项的集合,数据项是与数据空间所对应的实体相关的信息单位,一个数据项可以是邮件、文件、数据表、网页、

PPT等。由此可见,数据空间是一种不同于传统数据管理的新的数据管理理

念,是一种面向主体的数据管理技术。

1.2.2数据空间的特性

数据空间具有空间和时间特性。从空间上来说,数据空间的数据来自多个分布的自治的数据源;从时间上来说,数据空间中的数据也随着数据项的发展而不断变化,数据空间的大小是动态变化的,其中的数据是动态演化的,包含的信息量会不断增强,数据质量也会不断提高。与传统的数据管理技术类似,数据空间管理也面临数据模型及数据集成、查询与索引等各种技术的研究,但是由于数据特点不同,这些问题的解决不同于传统的数据库系统和数据集成系统。图1.2是不同的数据管理策略分布图,沿着语义集成度(横轴)和数据耦合度(数据间协调的松弛程度,纵轴)两个维度表示了已经存在的数据管理解决方案的分布。从图1.2可以看出:数据空间管理系统在两个维度上都处于中间的位置,在语义集成度上处于数据库管理系统、数据仓库系统、传统的数据集成系统与Wb搜索系统和桌面搜索系统的中间;在数据间协调的松弛程度上处于数据库系统、传统的数据集成系统、桌面搜索系统与数据仓库系统和Wb搜索系统的中间。因此,数据空间正好迎合了当今异构、复杂、多样化数据管理的新需求。下面分别将数据空间与传统的数据库系统和数据集成系统进行了比较。

1.2.2.1与传统的数据库系统的比较

数据空间在数据模型、数据操作、数据对象、数据关系以及构建成本上都与传统的数据库系统有明显的不同),主要体现在以下五个方面。

①数据模型。传统的关系数据库基于的是关系模型,数据关联是基于关系表的。数据空间的逻辑模型是一个图。数据库是模式优先(schema-first)的逻辑

14

第1章绪论

松散

●Web

Search

Data warehouse

数据耦合

●数据空间

管理系统

传统的

数据集成系统

Desktop

紧密

ODBMS

Search

语义集成度

图1.2不同的数据管理策略分布

结构,即数据库依赖于严格的数据模式。而数据空间的一个重要特点是从数据到模式(from-data-to-schema),它并不依赖严格的数据模式,数据模式可以是松散的、滞后的。数据模式是在数据的基础上,根据主体需求逐步演化出来的。

②数据操作。传统的数据管理技术具有完整的模式,数据操作基于严格的数据操纵语言,操作结果是准确的、完整的。而在数据空间中没有严格的数据模式,数据关系是根据主体需要逐步建立的,因此数据操作(如查询操作)具有尽最大努力的特性,查询结果可能是近似的、pay-as-you-go的。

③数据类型。数据空间的数据来自多个不同的数据源,数据格式多样,如可能包含关系表、文本、电子邮件、图像、音频、视频等多种异质的数据。而在传统的关系数据库中,数据格式就是单一的关系表,支持的数据类型也是有限的预定义的数据类型。

④数据关联。数据空间中数据关联是基于对象的,即任何对象之间都可以建立关联,只要这种关联对数据空间主体是有用的。因此,数据对象之间关联是复杂的、动态的、演化的。而传统的数据管理技术,数据关联建立在表一级,这种关联往往是稳定的,而且类型也相对单一。

⑤构建方式。传统数据库管理系统的构建往往是一步到位的,即通过分析相应的需求,设计出数据库模式,并在较长时间内保持稳定,这是一种pay-before-you-go的集成方式。而数据空间的构建是一种pay-as-you-go的集成方式,这是一种基于用户需要的演化集成方式,只有当用户认为必要时才会将对象保存到数据空间中,才会在对象之间建立关系。这种数据管理方式因为比传统的集成系统的前期成本低,所以更为实用。

51

数据空间中基于语义的实体搜索

1.2.2.2与传统的数据集成系统的比较

传统的数据集成方式是模式优先于数据的,只需要根据预先设计出的模式结构,通过模式间的映射关系就可以对来自不同数据源的数据进行集成。而数据空间的pay-as-you-go的集成思想是针对当前集成应用中以数据为中心的特征,数据优先于模式这一特点而提出的一种新的数据管理方案。目前半结构数据和无结构数据在应用中的比例已经达到了80%以上,并且还在不断增长。这意味着当前数据集成应用将面临一种以数据为中心、数据优先于模式的集成方式,即在集成中先有数据信息,数据的模式信息需要通过信息抽取和挖掘等方法在数据集成的过程中获得。传统数据集成方法显然已经无法适应新的应用需求。此外,当前数据集成中所要处理的数据信息具有更加明显的异构、海量、分布等特点,尤其是在数据的异构性方面已经不仅仅局限于模式上的异构,还包括类型上的异构。数据空间pay-as-you-go的集成方式中,将在用户认为必要时根据其需求抽取指定的数据信息和相应的结构化信息并在数据之间建立关联关系。这种集成思想不但能够提供实时而准确的数据信息,还能够提供对数据信息的统一高效的管理方法。图1.3给出了数据空间与传统数据集成系统在功能性和响应时间上的比较。从图中可知,数据空间技术即以数据为中心的payas-you-go思想的数据集成技术,对于推动数据库领域技术发展和为当前企业与个人的数据应用提供解决方案具有重要意义。

pay-as-you-go的功能性

---传统集成技术的功能性

pay-as-.you-go的响应时间==:=:传统集成技术的响应时间

定期维护

功能性

也==

系统初始集成阶段

系统正式运行阶段

响应时间

图1.3数据空间与传统数据集成系统的功能性和响应时间比较

数据空间在数据模型、数据对象、数据存储、创建方式等方面都与传统的

16

···试读结束···

  • 声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站内容来自网络收集整理或网友投稿,所提供的下载链接也是站外链接,版权争议与本站无关。您必须在下载后的24个小时之内,从您的设备中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版!我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!邮箱:121671486@qq.com,微信:diqiuren010101

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园