• 《数字时代图书馆学情报学研究论丛 基于知识库的出版知识服务实现》袁小群,国家新闻出版署语义出版与知识服务重点实验室著|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《数字时代图书馆学情报学研究论丛基于知识库的出版知识服务实现》【作者】袁小群,国家新闻出版署语义出版与知识服务重点实验室著【丛书名】数字时代图书馆学情报学研究论丛【页数】289【出版社】武汉:武汉大学出版社,2021.10【ISBN号】978-7-307-22596-1【价格】78.00【分类】电子出版物-出版工作-商业服务-研究-中国【参考文献】袁小群,国家新闻出版署语义出版与知识服务重点实验室著.数字时代图书馆学情报学研究论丛基于知识库的出版知识服务实现.武汉:武汉大学出版社,2021.10.图书封面:《数字时代图书馆学情报学研究论丛基于知识库的出版知识服务实现》内容提要:本书旨在解决如何利用信息技术实现个性化定制出版的出版知识服务,从而克服数字出版面临的资源利用率低、个性化服务能力不足等问题。全书以数字出版资源为对象,以出版知识服务活动过程中出版内容资源的流动方向为主线,构建出版知识服务内容生产和服务解决方案,为国内出版企业发展提供指导和借鉴。为此,本书首先从用户内容消费入手,对用户内容消费需求特性进行分析,并引入知识服务概念,系统分析和阐述出版知识服务。在此基础上,本书以出版知识服务内容流通为主线,引入语义技术、数据分析、自然语言处理、生物信息技术、优化理论以及网络通信技术,从出版内容资源管理、出版物动态生成以及服务提供与优化三个角度阐述了实现个性化出版内容定制的技术原理,实现信息技术对出版流程的再造,是信息技术与出版产业的高度融合,具有重要的学术价值和现实意义。...

    2023-12-21 数字时代图书馆重要吗 数字图书馆发展的三个时代

  • 语义场模型及其在P2P搜索中的应用》王志晓著|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《语义场模型及其在P2P搜索中的应用》【作者】王志晓著【页数】132【出版社】徐州:中国矿业大学出版社,2015.01【ISBN号】978-7-5646-2611-2【价格】25.00【分类】语义场-语言模型-应用-网络检索-语义场-语言模型-研究【参考文献】王志晓著.语义场模型及其在P2P搜索中的应用.徐州:中国矿业大学出版社,2015.01.图书目录:《语义场模型及其在P2P搜索中的应用》内容提要:本书主要包括2部分,分别是语义场模型及语义场模型在P2P搜索中的应用。传统P2P网络基于关键字进行资源搜索,缺乏对语义的支持。本书在构建语义场模型的基础上,提出一种基于语义场的P2P资源组织与搜索机制。语义场体现语义的聚集与分布,而P2P资源具有确定的语义信息。不考虑资源的物理位置,根据语义将其放置到语义场中。资源将按照自身语义在场中有规律地分布,具有相同语义的资源沿等势线聚集,从而实现基于语义场的结构化P2P资源组织。将查询请求视为一种特殊的资源,映射到语义场中。查询请求所在等势线上的资源和查询请求具有相同的语义。该等势线上资源的索引信息由P2P网络中选定的节点管...

    2022-10-20 语法 epub epub格式

  • 《用于Web2.0搜索意图理解的共识语义分析关键技术》赵玉丽,张引,张斌,高克宁,朱志良|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《用于We2.0搜索意图理解的共识语义分析关键技术》【作者】赵玉丽,张引,张斌,高克宁,朱志良【页数】92【出版社】沈阳:东北大学出版社,2018.09【ISBN号】978-7-5517-1989-6【价格】38.00【分类】数据检索【参考文献】赵玉丽,张引,张斌,高克宁,朱志良.用于We2.0搜索意图理解的共识语义分析关键技术.沈阳:东北大学出版社,2018.09.图书目录:《用于We2.0搜索意图理解的共识语义分析关键技术》内容提要:We2.0自由的信息发布与组织方式令搜索时的意图间隙问题更加严重,也为搜索意图的有效理解带来了困难。作者注意到这一信息组织方式正常运行的基础是:用户对分类概念的语义存在着共识。基于这一观察,本书从分析概念的共识语义入手,通过融合分析标签系统中异构对象的统计语义,实现对标签的共识语义及个性化的共识语义进行建模。进一步的,针对搜索意图处理中对复杂意图处理所需要的概念粒度层次信息,研究概念语义层次的构建方法。在此基础之上,针对现有研究对搜索意图理解中用户行为分析上存在的不足,提出了基于多种行为联合分析的用户行为分析方法。《用于We2.0搜索意图理解的共识语义分析关键技术》内容试读方酒冲起水的身6四身起出公海有论裤级是有通母圆连与面,面电雨的第1章引言1.1研究背景W搜索引擎以其简单便捷的使用方法、庞大的信息索引数量与较高的结果质量在我国获得了79.4%的使用率山,成为了网民首选的信息查找工具。然而受到关键字有限的描述能力[)及用户的使用习惯)的影响,查询条件与用户的搜索意图之间存在的“意图间隙(ItetioGa)”[,其典型的表现如关键字的同词异义、异词同义及语义粒度不同等现象,使当前的搜索方法在探索性搜索方面很难有效地满足用户需求。针对这种情况,研究人员提出了面向搜索意图的搜索方法,并逐渐地成为了搜索领域研究的热点问题)。W2.0开放的信息发布方式允许用户自由发布与共享信息。这种自由性激发了用户的参与热情,丰富了互联网上的信息,也导致了We信息组织方式的改变。W1.0时代信息的发布与组织由网站的管理人员完成,并按照各网站自有的分类体系分类。这些分类体系虽然各不相同,但都形成了用户理解该网站信息的基础,为用户直观理解网站内容提供了支撑。而在由普通用户主导信息发布的W2.0时代,为了方便用户对信息的分类并免于记忆和使用复杂的分类体系,W2.0使用了开放自由的信息分类方法如标签等。该分类方法依赖用户个人对分类概念的理解,不限制使用的词汇,有利于用户自由发布信息。但是,这种分类方法由于基于用户个人对分类的理解,缺少一个构1通用于W2.0搜索意图理解的共识语义分析关键技术成信息发布者和信息查找者之间公共语义基础的“基础架构”,使得意图间隙问题变得更加突出。因此,如何针对W2.0信息开放自由的组织特点,研究有效的搜索意图理解方法成为了有效支持W2.0环境下的信息检索所必须要解决的问题。1.1.1We2.0与标签系统We2.06是相对于传统的、相对封闭的We而定义的以用户为中心的、鼓励所有人参与其中的W应用环境。虽然从延生之日起,W就以其参与方式的开放性、信息传播的快速性及获取信息的便捷性而获得了广泛的使用,但由于网络的管理、服务器的维护及网站的创建仍旧存在着较高的技术门槛,使得在传统的W环境下,信息的发布权仍旧掌握在相对少数的网站管理者手中,更多的普通用户则只能被动地接受信息。而W2.0的诞生及随之而来的以用户为中心的应用设计理念,则通过为用户提供简单、便捷同时又多样化、个性化的信息发布方法,突破了传统W所存在的信息发布上的技术障碍,使普通用户可以任意地发布与共享任何类型的信息。这种自由性极大地激发了用户的参与热情。毫无疑问的,这种广泛的参与性已经令普通用户成为了互联网信息发布的主体之一,并在令互联网信息获得极大丰富的同时,使其能够覆盖过去无法引起少数的信息发布者注意的更加广泛的主题与领域。然而,W2.0开放的信息发布方式在为互联网带来更加丰富的信息的同时,其不受控制的信息发布方法也为如何有效地组织、索引进而查找这些信息带来了困难。在传统的W环境中,信息的发布与组织主要由网站的管理人员完成,并按照各个网站自有的分类体系进行分类。这些分类体系虽然各不相同,但一般都按照用户能够直观理解的方式进行组织,同时在较长的时间里保持固定。对于一个分类,用户通常可以通过分类名称来判断该类别所代表的分类语义。而即便对于不能直接判断语义的分类,用户也可以通过检视该分类下的信息来理解该分类所代表的信息。这种公开的、易于I2第1章引言理解的同时相对固定的分类体系成为了信息的发布者和使用者之间共同的语义基础,为信息的发布、组织、索引与查找提供了一个一致平台。而在W2.0环境下,开放的信息发布方式令普通用户逐渐地成为了互联网信息发布的主体。这种变化在改变互联网信息内容结构的同时,也改变了互联网信息组织的方式:一方面,开放的信息发布方式在令信息所涉及的主题及领域快速膨张的同时也导致了分类的进一步细化,这便要求使用覆盖面更广、描述能力更强、更加复杂的信息分类方法;另一方面,普通用户通常没有耐心去记忆并使用一个复杂的信息分类方法,这又要求信息的分类方法必须尽可能简单与直观。这种矛盾的需求使得在传统的W环境下所使用的基于固定分类体系的分类方法不再适应W2.0环境下信息发布与组织的要求。针对这一情况,为了适应W2.0信息发布方式所具有的开放、自由的特点,人们研究并使用同样开放且自由的标签系统)来实现对W2.0信息的组织、索引与查找。在标签系统中,发布、共享或再发布信息的用户为信息附加纯文本标签作为元数据信息,并使用这些标签来组织、索引并查找信息。这种信息组织方法不限制用户所使用的词汇,避免了传统的信息组织方法受到的自身所采用分类法的描述能力的限制,使其可以用于分类组织任意主题及类型的信息)。并且,相对于传统的将信息唯一的分类到分类法的某个类目下的过程,标签系统采用一种更加直观的多元分类策略,使分类的形成更加的灵活,并可以充分地利用人类对事物认知的直觉力量「0。最后,由于不会受到给定分类法的限制和干扰,用户可以更好地集中在对信息的分类过程中,并因此可以触发更多方面的标注角度,令分类结果能够更好地反映信息被发布、共享或再发布时的上下文[。这些方面的事实令标签系统具备了大量传统分类方法所不具备的优势,并使其在获得用户大量使用的同时,也获得了研究人员的大量关注。Rou等2]指出,用户在使用标签系统时会对标签的语义30用于We2.0搜索意图理解的共识语义分析关键技术形成共识,并且这种共识信息可以被用于发现概念间的关联。Tu等3)则进一步地利用标签系统获得了概念的层次关系。Wu等的研究结果表明,从标签系统中提取的全局语义模型可以帮助对标签的语义进行消歧并帮助识别具有相似意义的标签,进而帮助搜索并发现语义关联的资源。Cattuto等)证明了标签结果可以被用于进行搜索引擎的查询扩展服务。Gawiecki等1o则采用标签结果来辅助进行服务发现。这些多样化的研究证明了标签系统的潜在价值。在标签系统中,用户将标签作为元数据标记给资源。这一过程包括了3种类型的对象:用户、被标记的资源、被用于标记资源的标签,以及关联3种对象的一种关系:标记关系。这一结构使得标签系统可以很自然地被描述为一种三部图结构:用户集合U={“,42,…}、资源集合R={r1,T2,…}、标签集合T={t1,t2,…},以及这些节点之间用以表示标注关系的超边集E[)。这种简单的模型只考虑了最低限度的信息,因此只提供了有限的描述能力。为了适应不同的、更加复杂的应用场景,一些研究也提出了这一模型的改进。Gruer1)认为,当需要同时处理来自不同标签系统的标注数据时,来源不同的数据需要被分别地处理,并提出了一个四元组标签系统定义Taggig(Oject,Tag,Tagger,Source)。Wu等4则将标签行为抽象为一个包含标签、用户、资源以及标注发生时间的四元组。Schmitz等9则在研究应用关联规则方法到标签系统中时,进一步将标签的上下位关系引入了建模中。这些研究结果表明,随着视角的变化,标签系统可以进行不同方式与角度的建模,并可以传达出不同类型的信息。这种多样性也证明了标签系统不仅仅是基于关键字的元数据信息,更可以体现出大量用户对信息的一致观点。1.1.2标签系统的基本特征标签作为标签系统最为重要的核心,其基本特征已经获得了广泛的研究。最为直观的研究标签基本特征的方法是观察标签的使用4共点第1章引言情况。Mathe2o的研究指出,标签的使用频率服从幂律分布,即大部分的标签只被少数的用户在少数的资源上使用有限的次数,相反的却有少数标签被大量的用户在很多场景上广泛地使用。进一步的研究可以发现,那些使用频率较高的标签通常对应着关键的概念或实体,因此在研究和应用中需要被重点地关注。Se等)在研究标签系统中用户所使用的词汇集的演进的过程中也发现一些标签只在用户个人的书签中出现,是非常特别的,甚至是用户自己创造的词。这些词汇不会被其他用户所使用,它们的使用范围也仅限于用户用于浏览自己的资源。Hali等通过深入研究标签幂律分布的形成过程发现,在基本的标注形成后,其他用户会继续使用已经存在的热门标签对资源进行标注,从而形成越来越稳固的幂律分布特征而这些重复的标注则可视为用户对高频标签的一种认可。标签的另一个重要的基本特征是其与传统分类方法的区别。Jaco(1o指出,传统的分类(Claificatio)是将对象严格地划分到某一个类别中,类别之间是没有重叠的。而类似于标签的分类(Categorizatio)则更灵活地将对象分成组,组内的对象在特定的背景下具备共同特征,同一个对象也可以存在于多个组中。Kmer从标记动机的角度将使用标签的用户分为分类者与描述者,并认为分类者所做的标记是为了方便自身对资源的访问,而描述者则是为了方便他人对资源的访问2)。在类似的研究中,Nov等]更具体地提出了对应于分类者的组织动机与对应于描述者的交流动机。分类者通常会使用一些个性化的标签,而描述者则会用规范的标签以及很多同义词标签来描述资源。典型的分类者是网络收藏系统的用户,典型的描述者则为博客、视频的发布者。很明显的,规范的标签更易于分析标签间的关系,也因此更有利于标签结果的应用。标签的根本出发点在于有效地组织、索引并查找资源,因此标签的搜索性能也是其重要的基本特征。Heyma等针对标签是否能够帮助改善网络资源搜索质量的问题进行了大量的研究。他们的研究发现,对于网络书签资源,标签出现在被其所标记的超过50%的资源中,并且只有20%的标签没有出现在被标记资源、其父链接5I用于W2.0搜索意图理解的共识语义分析关键技术资源和其子链接资源中。然而,标签虽然能够提供无法从其他数据源获得的、可以用于搜索资源的信息,但是仅仅依靠标签数量及使用分布等信息仍旧难以形成明显的影响,因此对标签进行更深入的研究是获得良好搜索效果的基础。Stamouli等2]认为,标签歧义性是影响资源搜索准确率的重要因素,并设计了借助Wikiedia消除标签歧义的方法。Wu等也研究了标签的歧义识别问题,并且发现从标签系统中提取的全局语义模型可以帮助对标签的语义进行消歧,并识别具有相似意义的标签。作为标签系统三部图模型的一部分,标签之间的关系也形成了复杂的网络特征。吴等通过复杂网络的分析方法对标签系统中标签间的关系进行了分析,发现基于共现的标签网络具有较小的平均路径长度以及较大的聚类系数,体现出明显的小世界特征。对这种现象的一个合理的解释是网络中有类似于树形结构根节点的标签将众多标签联系了起来,这意味着为标签构建概念层次关系是可行的。贾等对网络书签应用Del.icio.u中中文标签的特点进行了全面的分析,发现用户倾向于选择简单的词汇来描述资源,且概括性的词汇的使用多于具体性词汇的使用。由于概括性的标签更适合作为层次关系中的节点,这一现实有利于形成更清晰更有价值的标签层次结构。Zlatic]等利用一组拓扑质量指标研究了照片分享网站Flickr与文献组织网站CiteULike的标签系统所形成的网络,发现这些标签网络具有类似的性质。这一结果使得上述研究可以推广到很多类似的系统中。标签语义特征研究可以通过对标签进行分类实现。Eda等9]认为,标签可以分为主观标签和客观标签,同时只有客观标签可以用于构建标签层次关系。Li等0则将标签分为标准标签、复合标签、术语标签以及无意义标签4个类别。Xu等3训指出标签分为如下5种类型:基于内容的标签,如Auto,HodaOdyey等;基于上下文的标签,如GoldeGateBridge,2005-10-19等;表示属性的标签,如资源发布者的姓名等;主观性的标签,如fuy,cool等;组织性的标签,如myaer,to-read等。在此基础上,Xu等认为高质量的116···试读结束···...

  • 《数据空间中基于语义的实体搜索》杨丹著|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《数据空间中基于语义的实体搜索》【作者】杨丹著【页数】141【出版社】沈阳:东北大学出版社,2019.10【ISBN号】978-7-5517-2304-6【价格】52.00【分类】数据管理-研究【参考文献】杨丹著.数据空间中基于语义的实体搜索.沈阳:东北大学出版社,2019.10.图书目录:《数据空间中基于语义的实体搜索》内容提要:本书是作者近十年科研的成果集合,围绕数据空间中基于语义的实体搜索关键技术展开,全书共分7章。第1章首先阐述背景及意义,并介绍数据空间概念、特性和国内外研究现状。第2章主要介绍中一种以实体为中心的数据模型。第3章主要介绍数据空间中基于聚类的实体关联关系挖掘算法CFRQ4A。第4章主要介绍数据空间中基于时间的集合式实体识别算法T-CER。第5章主要介绍数据空间中时间感知的查询时实体识别与数据融合框架Q-ER。第6章主要介绍数据空间中基于关联关系的关键字查询意图消歧算法。第7章主要介绍语义实体搜索原型系统KeymaticES的设计与实现。《数据空间中基于语义的实体搜索》内容试读第1章绪论第1章绪论不1.1研究背景和意义随着数字化技术和互联网的发展,数据管理和计算模式呈现出如下新的特点。一是海量化。全球的数据量在以指数的趋势迅猛增长,目前每年全球至少产生15亿TB的新数据。二是多样化与异构。随着网络技术的发展和W技术的日益成熟,Iteret收集了海量的信息资源,人们所面临的数据已不再是关系模型下纯粹的结构化数据,大量的XML文档、文本等半结构化数据,图片、音频、视频、文档等非结构化数据大量地涌入到应用中。三是松散化。这些资源具有分布分散、结构松散,并且更新变化快等复杂特性。四是共享化。互联网和通信设备的普及使人们能够很容易地实现数据的共享,数据库之间也因此建立起越来越密切的联系。随着信息技术的不断发展,计算机逐步成为人们日常工作和生活的必备品。同时,E-mail信息、工作文档文件、收集的参考资料、图片和视频等个人信息也在急剧膨胀,并且这些个人数据管理呈现出如下新的特点:数据量成倍增长,数据的更新日新月异;数据的形式趋向多样化,管理的目标包括结构化非结构化和半结构化的数据,以及动态的音频、视频等流数据;数据间的语义关联性更强,而且这种关联更难被发现和提取。这些复杂的特性决定了无法用单一、传统的关系数据库系统来组织和管理新环境下的数据。桌面搜索工具虽然为用户管理个人数据资源提供了方便,但它主要是面向全文的搜索,得到的还是相对“独立的”无关联的资源,并没有打破资源自身的界限。面对以不同形态存在且相互关联的多种资源信息的混合体,目前还没有一11数据空间中基于语义的实体搜索个成熟的管理软件有效地管理它们,人们还是通过手工对它们进行分门别类的管理或基于桌面搜索管理,无法实现语义查询和进一步深入查询,更不能获得资源之间的关联关系,导致数据资源利用率不高。无论是传统的数据库技术还是面向全文的桌面搜索技术,均已无法满足这些异构多样数据管理的新要求。与新的数据特点相适应,人们对信息的管理能力和服务模式也提出了新的要求,传统的数据库管理系统在这些新的要求面前显得无能无力,不能满足这些复杂数据管理的新要求。数据空间口就是在这一背景下提出的新的概念和技术。数据空间是基于ay-a-you-go思想进行集成的一种数据组织形式,不依赖于严格的数据模式,并且能随着时间演化,在任意时候提供给用户尽最大努力的结果,能够满足上述数据特点的数据管理的要求。数据空间将是数据管理的又一新目标,代表了一种新的管理数据的理念。数据空间技术是数据库管理技术的进一步发展,该技术的发展与成熟将代表数据管理进入一个新的里程碑,数据空间的相关研究成果将为管理开放的数据资源提供良好的支持,达到提高资源利用率和工作效率的目的,具有广阔的前景。☑1.2数据空间概述本节首先对数据空间的概念进行介绍;接着对数据空间的特性进行分析、归纳,并且与传统的数据库系统和数据集成系统进行比较。1.2.1数据空间的概念数据空间(Dataace)的概念最初由M.Frakli、A.Halevy和D.Maier几位学者于2005年在SIGMODRecord的论文Fromdataaetodataace:aewa-tractiofori时formatiomaagemet和PODS2006t的论文Pricileofdataaceytem中提出。学者们根据当前数据与信息的增长对数据管理技术需求的发展情况,针对现有传统数据库技术的不足,提出了一种新的信息管理抽象方法,并系统地分析了数据空间技术的目标,以及构建数据空间的支撑平台所面临的挑战。在论文中给出了数据空间及其组件的一个例子(如图1.1所示),将数据空间建模成一系列参与者(articiat)和关系(relatiohi)。图中的大矩形框中表示了数据空间中各种异构类型(结构化、半结构化、非结构化)的数据资源(即参与者)及其彼此间丰富的关系。从图中可以看出,参与者可以是关系数据12第1章绪论SeorCatalogWSDLRDBavaahot1hrudateSDBLocalSeorStoreamXMLIdexjavaSchemamaigMauallycreatedSeorSearchWSDLRDBamqueryRDBXMIviewrelicaAdmiitratioDicoveryEhacemet图1.1一个数据空间及其组件的例子库、XML资源库、文本数据库、W服务和软件包等,甚至是传感器。矩形框的外围左边和下边分别给出了数据空间的组件(模块),包括目录服务组件、本地存储和索引组件、搜索和查询服务组件、管理组件、发现服务组件和提高组件,用来提供数据空间管理系统的各种管理和支持服务。2006年,A.Halevy等在荣获VLDB十年最佳论文奖的报告Dataitegratio一theteeageyear中对数据集成技术所面临的挑战性问题进行了分析,其中包括采用ay-a-you-go数据管理思想的数据空间技术。数据空间是基于ay-a-you-go思想进行集成的一种数据组织形式。数据空间在本质上可以被看作对数据集成框架的下一步演化,但在集成对象、集成方式等方面与传统的数据集成技术不同。一个数据空间是由一系列相关的异构资源对象集和资源对象间的关联关系集组成的。提供W级别的数据集成需要一个能为现实世界中任意关系提供建模的系统,并且能随着时间演化,在任意时候提供给用户尽最大努力的结果。从数据管理角度来说,数据空间是对新的数据特点的一种刻画,许多在数据管理和相关领域的研究问题都与数据空间相关,因此其主要研究问题包括数据模型、实体识别、模式匹配和模式映射、关键字查询、数据集成等。数据空间是与主体相关的数据及其关系的集合,数据空间是与主体相对应的,数据空间中的所有数据对于主体来说都是可以控制的。主体相关性和可控性是数据空间中数据项的基本属性。数据空间分为主体数据空间和与之相对的公共数据空间。主体数据空间是公共数据空间的一个子集,随着主体需求的不31数据空间中基于语义的实体搜索断变化,数据项不断从公共数据空间纳入到主体数据空间中。主体、数据集、服务是数据空间的三个要素。主体是指数据空间的所有者,可以是一个人或一个群组,也可以是一个企业;也就是说,一个人可以有一个数据空间,一个项目小组可以有一个数据空间,一个企业可以有它的数据空间。数据集是与主体相关的所有可控数据的集合,其中既包括对象,也包括对象之间的关系。主体通过服务对数据空间进行管理,如数据分类、查询、更新、索引等,都需要通过数据空间提供的服务完成。数据空间是数据项的集合,数据项是与数据空间所对应的实体相关的信息单位,一个数据项可以是邮件、文件、数据表、网页、PPT等。由此可见,数据空间是一种不同于传统数据管理的新的数据管理理念,是一种面向主体的数据管理技术。1.2.2数据空间的特性数据空间具有空间和时间特性。从空间上来说,数据空间的数据来自多个分布的自治的数据源;从时间上来说,数据空间中的数据也随着数据项的发展而不断变化,数据空间的大小是动态变化的,其中的数据是动态演化的,包含的信息量会不断增强,数据质量也会不断提高。与传统的数据管理技术类似,数据空间管理也面临数据模型及数据集成、查询与索引等各种技术的研究,但是由于数据特点不同,这些问题的解决不同于传统的数据库系统和数据集成系统。图1.2是不同的数据管理策略分布图,沿着语义集成度(横轴)和数据耦合度(数据间协调的松弛程度,纵轴)两个维度表示了已经存在的数据管理解决方案的分布。从图1.2可以看出:数据空间管理系统在两个维度上都处于中间的位置,在语义集成度上处于数据库管理系统、数据仓库系统、传统的数据集成系统与W搜索系统和桌面搜索系统的中间;在数据间协调的松弛程度上处于数据库系统、传统的数据集成系统、桌面搜索系统与数据仓库系统和W搜索系统的中间。因此,数据空间正好迎合了当今异构、复杂、多样化数据管理的新需求。下面分别将数据空间与传统的数据库系统和数据集成系统进行了比较。1.2.2.1与传统的数据库系统的比较数据空间在数据模型、数据操作、数据对象、数据关系以及构建成本上都与传统的数据库系统有明显的不同),主要体现在以下五个方面。①数据模型。传统的关系数据库基于的是关系模型,数据关联是基于关系表的。数据空间的逻辑模型是一个图。数据库是模式优先(chema-firt)的逻辑14第1章绪论。松散●WeSearchDatawarehoue数据耦合●数据空间●管理系统传统的数据集成系统Dekto紧密ODBMSSearch高语义集成度低图1.2不同的数据管理策略分布结构,即数据库依赖于严格的数据模式。而数据空间的一个重要特点是从数据到模式(from-data-to-chema),它并不依赖严格的数据模式,数据模式可以是松散的、滞后的。数据模式是在数据的基础上,根据主体需求逐步演化出来的。②数据操作。传统的数据管理技术具有完整的模式,数据操作基于严格的数据操纵语言,操作结果是准确的、完整的。而在数据空间中没有严格的数据模式,数据关系是根据主体需要逐步建立的,因此数据操作(如查询操作)具有尽最大努力的特性,查询结果可能是近似的、ay-a-you-go的。③数据类型。数据空间的数据来自多个不同的数据源,数据格式多样,如可能包含关系表、文本、电子邮件、图像、音频、视频等多种异质的数据。而在传统的关系数据库中,数据格式就是单一的关系表,支持的数据类型也是有限的预定义的数据类型。④数据关联。数据空间中数据关联是基于对象的,即任何对象之间都可以建立关联,只要这种关联对数据空间主体是有用的。因此,数据对象之间关联是复杂的、动态的、演化的。而传统的数据管理技术,数据关联建立在表一级,这种关联往往是稳定的,而且类型也相对单一。⑤构建方式。传统数据库管理系统的构建往往是一步到位的,即通过分析相应的需求,设计出数据库模式,并在较长时间内保持稳定,这是一种ay-efore-you-go的集成方式。而数据空间的构建是一种ay-a-you-go的集成方式,这是一种基于用户需要的演化集成方式,只有当用户认为必要时才会将对象保存到数据空间中,才会在对象之间建立关系。这种数据管理方式因为比传统的集成系统的前期成本低,所以更为实用。51数据空间中基于语义的实体搜索1.2.2.2与传统的数据集成系统的比较传统的数据集成方式是模式优先于数据的,只需要根据预先设计出的模式结构,通过模式间的映射关系就可以对来自不同数据源的数据进行集成。而数据空间的ay-a-you-go的集成思想是针对当前集成应用中以数据为中心的特征,数据优先于模式这一特点而提出的一种新的数据管理方案。目前半结构数据和无结构数据在应用中的比例已经达到了80%以上,并且还在不断增长。这意味着当前数据集成应用将面临一种以数据为中心、数据优先于模式的集成方式,即在集成中先有数据信息,数据的模式信息需要通过信息抽取和挖掘等方法在数据集成的过程中获得。传统数据集成方法显然已经无法适应新的应用需求。此外,当前数据集成中所要处理的数据信息具有更加明显的异构、海量、分布等特点,尤其是在数据的异构性方面已经不仅仅局限于模式上的异构,还包括类型上的异构。数据空间ay-a-you-go的集成方式中,将在用户认为必要时根据其需求抽取指定的数据信息和相应的结构化信息并在数据之间建立关联关系。这种集成思想不但能够提供实时而准确的数据信息,还能够提供对数据信息的统一高效的管理方法。图1.3给出了数据空间与传统数据集成系统在功能性和响应时间上的比较。从图中可知,数据空间技术即以数据为中心的aya-you-go思想的数据集成技术,对于推动数据库领域技术发展和为当前企业与个人的数据应用提供解决方案具有重要意义。ay-a-you-go的功能性---传统集成技术的功能性ay-a-.you-go的响应时间==:=:传统集成技术的响应时间定期维护功能性也==系统初始集成阶段系统正式运行阶段响应时间图1.3数据空间与传统数据集成系统的功能性和响应时间比较数据空间在数据模型、数据对象、数据存储、创建方式等方面都与传统的16···试读结束···...

    2022-10-17 语义错误 语义错误漫画

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园