论文参考文献格式范例(网络文献参考文献格式)
本文是关于信息纸书写材料模型文本和信息组织以及语义和语言方面的参考文献格式模型文本。
李月亭,李思
摘要:多语言网络信息已经成为一种趋势,跨语言信息检索已经成为一个研究热点。多语言信息的有序组织是实现跨语言信息检索的基础。摘要:本文分析了微观、中观和宏观三种多语言信息组织模式的层次结构,并分析了多语言语义词典和多语言叙词表五个实例,总结了这三种模式存在的问题,并提出了改进建议。
关键词多语种信息组织模式多语种语义词典多语种词库多语种数字图书馆
引用这篇文章的格式,李月亭,李思。基于语义的多语言信息组织模型研究。图书馆论坛,2016 (2): 13-19。
本文是教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”(项目编号:14D870001)的研究成果之一。
o导言
随着网络用户分布的国际化和网络信息的多语化,信息资源的多语种特征以及用户掌握的语言的差异和局限性,使得自由获取信息越来越困难。与此同时,不同语言的信息交流和传播越来越频繁。如何突破语言障碍,实现无障碍交流已经成为一个亟待解决的问题。目前,仍然缺乏对多语言资源内容的深入披露和对相关关系的深入挖掘和组织。资源的处理、组织和管理仍停留在大粒度的文档、文件或网页层面,难以满足基于内容(语义)的用户信息需求。有必要从不同语言的信息资源中挖掘出具有一定意义和价值的小粒度知识单元,如概念、图表和数据,并以一定的方法和手段对其进行科学组织,帮助用户发现、获取和利用各种语言和粗粒度信息的相关信息资源。为了消除信息资源利用中的语言障碍,多语言信息组织和检索技术应运而生。
目前,国内外对多语言信息组织的研究主要集中在多语言叙词表的构建、WordNet的应用和本地化、知识组织系统的语义互操作项等方面。没有关于多语言信息组织模式的文献。根据多语种信息组织的目标,总结分析了三种多语种信息组织模式。
1基于语义的多语言信息组织模型分析
多语言信息组织的对象主要是多语言网络资源。黄华根据信息组织的对象将网络信息组织模式分为四个层次:第一层次是微观组织模式,主要包括文献、超媒体、数据库和网站;第二层次是媒介组织模式,主要包括编目和主题信息门户。第三层是宏观组织模型,主要指网络资源指南和搜索引擎。第四层是分布式组织模式,以数字图书馆为代表。作者参照多语信息组织模式的划分思想,将其划分为三种模式。
1.1以词语为组织对象的微观组织模型
微观结构模型的层次结构
微观组织模型的组织对象是多语言词,由多语言语义词典和多语言叙词表表示。微观组织模型的层次结构如图1所示。
1 1 2微观结构模型研究
本文讨论的多语种语义词典都是基于词网的系列词典。作者利用全球词汇网络协会(GWA)平台调查多语言语义词典的发展状况。结果如表1所示。
此外,作者使用了分类法仓库词库注册网站
多语种叙词表在学科分类信息的组织和检索中发挥着重要作用。在所调查的41个多语言词库中,欧洲词汇库、美国国家农业词库和加拿大统计词库可以检索所有主题的术语。剩余的多语种词库涉及许多学科和主题,如农业、医学、环境和文化遗产。多语言同义词库是高度专业化的,在有序组织信息方面发挥着重要作用。EMMNewsExplorer项目收集34种语言的新闻文本,并使用EuroVoc提取跨语言主题和聚类文本。在此基础上,开发了多语言新闻摘要系统。
1 2以特定学科和领域的信息为组织对象的中层组织模型
中观组织模式的层级结构
中观层次的组织模型主要是一个特定主题领域的信息组织。其组织对象涉及一个或多个主题的相关多语信息,信息类型包括电子书、电子期刊、数据库等。它的优势在于收集和组织的多语言资源与有限的主题或主题之间的强相关性,并且它的覆盖面是完整的,包括该主题或主题的所有资源。这种组织模式的代表形式是多语言主题信息门户。中层组织模型的层次结构如图2所示。
1 2 2中间组织模式研究
作者于2015年4月16日至20日对多学科信息门户进行了调查。详情见表2。
1 3以复杂信息为组织对象的宏观组织模型
宏观组织模式的层级结构
宏观组织模型是一个复杂的数字多语言信息的组织。其组织对象是海量信息,几乎涵盖了所有的网络信息。它只能收集某个主题或地区的多语言信息,也可以收集所有领域的多语言信息。其组织信息类型比中观组织模式更加多样,从普通新闻、网站、论文、报告、图片等类型到手稿、文物、口述历史等类型。该模型的代表形式是多语言搜索引擎和多语言数字图书馆。宏观组织模型的层次结构如图3所示。
1 3 2宏观组织模式研究
(1)多语言搜索引擎调查。一些研究者分别对多语言搜索引擎进行了不同的调查和分析。通过使用,作者得出结论,目前有9个搜索引擎提供多语言服务。他们是雅虎、Ask、谷歌、必应、Excite、lxOuick、IBoogie、Exalead、SenseBot。为了调查九个搜索引擎的跨语言搜索的实际效果,作者设置了两种搜索方式。检索词选择中文、日文和法文,检索词为“国家图书馆”,检索时间为2015年3月6日。在“检索语言与受限语言相同”的设定条件下,九个搜索引擎都支持用法语单词“国家图书馆”进行搜索。在“检索语言不同于限制语言”的设定条件下,选择法语词“国家图书馆”,汉语词“国家图书馆”,日语词“国家损失图书馆”进行检索。搜索结果显示,无论输入哪个检索词,IBoogie都无法搜索。Excite只能使用英语进行检索。尽管。Ask、lxOuick和Exalead可以定义语言,检索结果的语言与检索结果的语言相同。因此,只剩下雅虎、谷歌、必应和SenseBot,这四个多语言搜索引擎可以初步实现跨语言检索。在上述四个搜索引擎中进行了实验。首先,为检索语言和定义语言设置相同的条件。将限定语言设置为法语,将搜索词设置为“国家图书馆”。四个搜索引擎获得的结果都是高度相关的。它们都是法国国家图书馆的法文网页或包含“国家图书馆”的网页,以及少量英文或其他语言的国家图书馆网页。然后将限定语言设置为法语或日语,即输入的搜索语言不同于限定语言。雅虎、谷歌和必应的搜索结果都有搜索语言的相关页面和合格语言的相关页面。SenseBot获得的结果页面是
(2)多语言数字图书馆调查。根据研究者对多语言数字图书馆的简要介绍和作者的实际使用情况,作者选择了五个提供多语言服务的数字图书馆作为调查对象。他们的多语言信息资源如表3所示。调查时间为2015年4月21日至22日。
通过实际使用,作者发现只有欧洲人初步实现了跨语言信息检索。欧洲通过元数据翻译实现多语言结果显示。元数据翻译的方法描述了多语言集合资源,而不需要翻译整个文档资源,大大提高了检索系统的效率。各种资源的元数据信息被收集并翻译成各种语言的元数据。当用户搜索时,系统只需要搜索所有语言的元数据来返回检索结果。
1.4三种多语言信息组织模式概述
这三种模式对多语言信息组织有不同的强调。
在多语言信息组织过程中,三种模式各有侧重。微观组织模式侧重于组织词语之间的语义关系。多语种主题信息门户和多语种数字图书馆侧重于多语种信息的收集和整合,强调多语种信息资源的覆盖面和高质量,这也符合其分布式的组织特点。然而,多语言搜索引擎倾向于研究跨语言信息检索技术。
不同的信息组织工具在相同的模式下是不同的。多语言语义词典组织多语言自然语言词汇,而多语言叙词表是受控语言,这些受控词汇用作检索标记。多语言搜索引擎注重收集大量信息,但索引和描述工作是由机器完成的。由于缺乏规范和标准,检索效率无法得到保证,如频繁出现死链接。然而,多语言数字图书馆注重收集大量的信息资源。大多数索引和描述工作,甚至元数据翻译工作,都是手动完成的,并且遵循统一的元数据标准。资源格式是一致的,因此资源质量相对较高。
1 4 2通过多语言信息组织工具构建协作
主模式
上述调查发现,多语言信息组织工具的构建通常是以合作的方式进行的。这三部多语言语义词典是由大学或研究机构联合开发的。多语言词库的互操作性项目通常由多个国家的研究机构联合开发。除了多语种搜索引擎的研发通常由科技企业完成外,多语种主题信息门户和多语种数字图书馆是多语种信息资源的来源。世界上许多国家的大量研究机构、图书馆、档案馆、博物馆等机构都需要合作建设。此外,许多国家的志愿者也需要参与翻译和信息维护的完成。多语言信息组织由于其特殊的组织对象——多语言信息,固有地需要具有不同文化和语言背景的组织人员或研发人员。共建共享是促进多语种文化交流的重要途径和唯一途径。
翻译和映射是语义资源建设的主要方法
对于多语言信息组织,翻译方法是主要方法。它通常用于翻译单词或术语。它可以直接从源语言术语翻译成目标语言术语,从而在两种可比较的不同语言中创建具有相同结构和意义的知识组织系统。它还可以建立一种核心语言,然后将其他语言翻译成核心语言的词汇或词典。词典词的翻译限制很小。对于术语翻译,为了确保翻译后目标语言术语和源语言术语之间的语义一致性,在翻译过程中必须遵循以下要求。目标语言术语必须基于概念。目标语言术语必须具有一致性,即目标语言术语和源语言术语应该是一一对应的
映射是词表之间语义互操作的常用方法。词表映射是构建语义数据层的主要方法。以欧陆词表的映射过程为例,欧陆首先选择人名表VIAF、地名表Geonames和WordNet作为轴表,然后将其他词表对齐并映射到轴表。此外,欧陆还选择MACS项目建立的映射关系。在映射中,Europeana首先使用Amalgame对齐工具将词表转换成SKOS/RDF存储格式,并通过主题词匹配、基于词表微观结构的匹配和基于案例的匹配三种方式实现词表的自动对齐。当目标词表和源词表在概念上对齐后形成“多对一”的情况时,就需要手工分析词的结构层次,选择唯一的值来完成词的映射。概念映射的工作量很大,为了在语义层面上实现映射,还需要借助外部数据,如语义词典和语料库来计算术语之间的概念相似度,从而实现映射。
2.基于语义的多语言信息组织模式存在的问题及改进建议
2.1基于语义的多语言信息组织模型存在的问题
基本的多语言信息组织工具数量很少
基础多语种信息组织工具是指微观组织模式中具有代表性的多语种信息组织工具。这些组织工具应用于中观和宏观组织模式,为多语种信息资源的索引和检索提供基础。他们是* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *因此,其建设和应用对多语言信息组织模式的发展有着重要的影响。 目前,已经开发了少量基于WordNet的多语言语义词典。有41种多语言叙词表。然而,仍然有许多以词为组织对象的多语言信息组织工具,如分类表、名称表、名称表和权威文档。这些信息组织工具的多语言特性相对较弱。从实际应用的角度来看,只有AGROVOC被用于构建农业领域本体,MACS的结果被应用到少量的实际结果中,如欧洲A的语义数据层的构建。与多语种语义词典和多语种叙词表的所有结果相比,仍有很大的实际应用空间。
2 1 2除英语资源外的多语种信息资源相对稀缺
英语资源占多语言资源的大多数。以多语言语义词典MultiWordNet为例,英语词汇占所有同义词集的40.6%,英语是最常用的检索语言(49.3%),表明英语资源占资源的绝大部分。
其他多语种信息资源建设模式也以英语资源为重点。以ODP资源为例,以“图书馆”为检索词,共获得29,373个结果,以“图书馆”为检索词,共获得258个结果。在全球科学的100个源数据库中,近80个是英语数据库,20多个包含其他9种语言。在TEL收集的资源中,英语资源占400多种语言资源总数的30%以上。
2 1 3跨语言信息检索的效果不理想
通过以上对各种多语言信息组织工具使用情况的分析,可以看出大多数多语言信息组织工具都只是多语言信息资源的集成,真正实现跨语言信息检索的工具很少。只有全球科学,一个多语言的主题信息门户,基本上实现了跨语言的信息检索平台。Europeana是一个多语言数字图书馆,拥有雅虎等4种多语言搜索引擎,已初步实现跨语言信息检索。尽管跨语言信息检索的性能可以达到通用的性能基准的90%
翻译的效果也会影响跨语言信息检索的效果。目前,主要有四种方法:基于问题的翻译、文档翻译、中间语言转换和非翻译方法。检索结果的翻译是实现跨语言信息检索的直接途径。环球科学、谷歌和必应都支持检索结果的翻译。环球科技使用必应翻译技术,但目前无法翻译结果。谷歌和冰都是机器翻译,实际翻译效果并不理想。Europeana通过元数据翻译和其他方法执行多语言信息检索和多语言结果。元数据翻译通常是手工完成的,质量高但效率低,元数据只能翻译成一种语言。
2.2改进基于语义的多语言信息组织模型的建议
2 2 1重视基本多语言信息组织工具的构建和应用
以词为目标的多语言信息组织工具,如语义词典、叙词表、分类表、名称列表、权威文档等组织工具,是宏观组织模型,是语义数据层实现的资源保障,也是多语言本体构建的源泉。目前,微型多语种信息组织工具建设不完善,开发力度不够。
因此,有必要加快各种微观多语言信息组织工具的建设。对于已经具有内部语义关系的信息组织工具,通过映射、翻译等方法形成了更广泛的语义网络。形成中观和宏观组织工具的语义数据层是为了处理概念查询的逻辑问题或实现以不同的方式如人、主题、时间和语言进行浏览和检索。基本的多语言信息组织工具可以通过上述* * * * * *索引、自建、翻译、映射、连接等方法来构建。
重视多语种信息资源的收集
多语言资源的收集是多语言信息组织的基础工作。无论是多语言词汇、特定主题领域的信息,还是大量复杂的信息,各种与语言相关的信息都应该根据具体情况综合收集。丰富的多语言信息是多语言信息组织的基本资源。只有拥有大量的基础资源,才能对其进行组织,实现不同方式的浏览和搜索。WDL刚刚在2009年推出。资源来自19个国家的26个机构。到2013年,合作伙伴(包括图书馆、档案馆和其他提供资源的机构,以及提供技术或财政捐助的协会、基金会和个人公司)的数量将增加到172个,目前为185个。多语种信息资源的收集是可持续和可持续的,只要注意收集和整合这些基本资源。可以通过以下两种方式收集尽可能多的多语言信息资源
(1)机构合作。从三种多语言信息组织模式的开发者和资源提供者的角度来看,不仅有学校之间的合作,也有国际合作。多语言数字图书馆是一种基于海量复杂信息的宏观组织模式,基本上有上万个合作机构。对于多语言信息组织而言,跨国和多语言机构合作是获取多语言信息资源的最直接方式,可以整合和共享不同机构拥有的多语言资源,优化资源的使用。
(2)各种语言的志愿者一起参与。志愿者参与多语言信息资源建设可以节约成本,广泛收集多语言信息资源。多语种主题信息门户和多语种数字图书馆志愿者包括技术志愿者、各学科志愿者和各语种翻译志愿者。
多语言本体的开发与应用
多语言本体是本体在不同语言中的表达形式。多语言语义词典和多语言词库是多语言本体构建的基础。由于WordNet具有很强的语义结构,基于WordNet的多语言语义词典EuroWordNet被认为是一个本体。目前,多语言本体的实际开发和应用很少。在中国,这方面的研究很少。多语言本体可以应用于跨语言信息检索、机器翻译、词义消歧等领域。在跨语言信息检索中,主要用于实现查询扩展、检索对象的查询表达和语义标注、基于概念的索引和查询翻译消歧。国外已经开发了一些多语言本体并在实践中得到应用。例如,加州大学伯克利分校信息学院的TIDES项目将使用领域资源来构建双语词典和映射多语言查询。进行跨语言信息检测和提取。基于医学领域本体的BioCaster项目是由日本国家信息科学研究所、日本国家传染病研究所、越南国立大学、kasetsart大学和其他研究机构共同合作的,使用文本挖掘技术。多语言信息发现和跟踪。新泽西理工学院(计算机科学系-ENCE)的管理和关系工程包括一个多语言商业领域本体,通过它可以实现跨语言的垂直信息搜索。总之,多语言本体的构建和应用对于实现多语言信息挖掘和跨语言信息检索具有重要意义,应该加强多语言本体的开发和应用。
作者简介
李月亭,硕士,国家图书馆社会教育部助理馆员;李思,博士生导师,武汉大学信息资源研究中心教授,图书馆学系主任。
接收日期:2015年10月22日
参考资料文件:
信息系统项目管理论文
小学信息技术论文
生物信息学论文
电子信息工程毕业论文
电子信息工程论文
移动信息期刊
本文评论:本文是关于信息组织、语义和语言学方面的相关大学硕士和信息类本科毕业论文,以及相关的信息论文开题报告模式文章和论文标题写作参考资料。
上一篇:许嵩的四字歌曲,许嵩这个字怎么读
下一篇:谦虚的人,谦虚的意思