在职研究生什么时候论文(在职研究生硕士论文)
本文是数据自审公开报告、元数据和启示的样本,也是政府自审公开报告的样本。
介绍
自2009年以来,出现了“开放政府数据,OGD)运动[1-2]。截至2016年7月,“OGP开放政府伙伴关系”的成员国数量从2011年成立之初的8个增加到70个。根据世界银行的统计,目前,250多个各级政府已经实施了[开放数据倡议3]。
与此同时,开放式政府数据已经成为图书情报、信息管理和电子政务领域的热门研究课题[4-5]。英国学者蒂姆·迪斯总结了“[开放数据行动计划6”的十大障碍:(1)领导人和官员的支持;(2)开放数据集;(3)开放数据许可;(4)数据标准;(5)数据门户;(6)第三方数据应用;(7)推广普及(公众参与);(8)能力建设;(9)反馈机制;(10)政策和立法。其中,(2)(4)(5)(6)(7)(8)六个障碍与元数据有关,包括数据集的元数据描述、元数据标准、数据门户的元数据管理、基于元数据的数据搜索和发布者提供高质量元数据的能力等。2014年,G8 《开放数据宪章》发起了一项联合行动"元数据制图"[7];欧盟的“开放数据战略”研究政府元数据的“语义互操作性”。欧盟在[的项目)。随着开放数据的逐渐深入,元数据正朝着标准化、标准化和机器可读的方向发展,从提高开放数据集的可发现性到帮助用户理解和选择数据集,[9][10]。
在学术研究和政府实践方面,中国也开始加快步伐,赶上全球开放数据浪潮[11]。例如,元数据是郑雷等人建立的“中国政府开放数据总体评价框架”的13个评价维度之一[12]。钱小红[13]和周志峰[14]都认为元数据的建设和管理是“开放数据平台”和“数据目录门户”的核心功能。自2012年以来,北京、上海、浙江、重庆等地方政府先后推出了10多个开放数据门户网站。虽然这些网站可以提供基本的元数据信息[15],但数据集的元数据描述并不全面和标准。很难支持广泛的数据目录互操作性和用户搜索要求,这将影响数据开放的效果[9]。因此,本文通过比较国际上主要的政府开放数据元数据方案,总结和分析了我国地方政府开放数据元数据方案的不足,以期为我国政府开放数据元数据系统的建设提供一些理论参考和借鉴。
W3C的开放数据元数据标准规范
由蒂姆·伯纳斯·李领导的W3C是政府数据开放运动的积极推动者[16]。2014年1月16日。W3C政府关联数据工作组发布了由爱尔兰国立大学Deri(数字企业研究所)起草的报告,W3C电子政务兴趣小组[17修订的政府开放数据元数据的正式推荐标准—— DCAT(数据目录词汇表)。据统计,DCAT及其应用概况已被欧盟、美国、英国、西班牙、爱尔兰和意大利等政府机构广泛采用,成为数据中心。为全局数据目录和DKAN等服务的输入输出。[18]。
Dcat主要支持数据目录之间的互操作性,所以它采用了本体[19-20]的表达方式。DCAT本体的命名空间(也称为“词汇表”)是http://www.w3.org/ns/dcat#(前缀DCAT),它定义了7个类和17个属性,并重用了都柏林核心、FOAF本体和SKOS本体的相关词汇表。
2.1
描述对象
DCAT元数据的描述对象主要是“数据目录”、“数据集”和“数据资源”(见图1),分别对应图中的类别DCAT :目录、dcat :数据集和DCAT :分布。DCAT :目录类的例子是开放数据目录的门户网站。例如,美国的catalog.data.gov、英国的data.gov.uk、中国的bjdata.gov.cn和数据中心。截至2016年7月,DataPortals.org已收集了519个数据目录门户。
数据目录网站通常包含大量“数据集”——,这是数据目录管理的基本单元,是由机构或部门发布和维护的数据集合。2013年,[7]的1028054个数据集以24种语言在全球43个国家开放,这个数字仍在快速增长。因此,“数据集”是元数据描述的核心对象。帮助用户找到、理解和选择合适的数据。数据集包含一个或多个可下载的“数据资源”——数据文件、用于访问数据的端点或RSS源等。显然,用户增值应用的对象是“数据资源”。
2.2
元数据元素
表1显示了DCAT在三个主要描述对象中推荐的元数据。下划线部分被美国政府采用。目录类有13个属性,包括dcat本体定义的3个新属性。dcat :数据集类有15个属性和5个新属性。DCat:分布类有11个属性和4个新属性,其中括号是来自都柏林核心元数据或FOAF的父属性(见表2)。
3美国元数据方案
美国是开放政府数据的发起者和领导者。自2009年5月21日世界上第一个国家数据门户网站[22]。数据上的数据集。政府官员已经从几百人增加到超过18万人。它涵盖14个专题组,包括农业、教育、能源、气候、金融、卫生、公共安全和科学研究。2016年4月21日,由互联网之父蒂姆·蒂姆·伯纳斯·李·李创建的万维网基金会发布了其第三份“开放数据晴雨表”全球报告。报告显示,在评估的92个国家和地区中,英国的政府公开数据总体水平最高,其次是美国、法国、加拿大和丹麦[21]。
在元数据建设方面,美国也走在前列。在白宫领导的“项目开放数据”于2013年9月20日发布“元数据方案”版本1.0 [23]之后,最新版本1.1(项目开放数据元数据方案V 1.1)于2014年11月6日发布。POD V1.1版)[24]],并在2015年2月1日之前完成了从1.0版到1.1版的转换。目前,由于各级政府广泛使用pod v1.1,Data.Gov的数据集不仅来自联邦政府机构,还从许多地方政府数据门户网站收集数据集。
综上所述,美国在开放数据元数据建设方面具有以下特点:
(1)政策保证。2013年5月,美国白宫行政和预算办公室(OMB)发布了备忘录《开放数据政策:将信息作为资产管理》,这是美国政府数据资产管理的纲领性文件[25-26]。备忘录明确指出“[27”:元数据是美国联邦政府开放数据政策的一部分,“元数据计划”广泛适用于政府、地方政府和非政府组织。
(2)标准化和规范化。版本1.0和1.1的“通用核心元数据”是基于DCAT [2,23]建立的,并映射到元数据标准DCAT、Schema.org、CKAN元数据、ISO 19115和CS DGM [28]。该方案采用JSON-LD定义元数据模式和机器可读的标准化元数据记录格式。例如,Data.gov以RDF和JSON格式提供元数据。该方案明确规定了每个元素的值类型,如将字符串类型分为IRI、网址和IANA媒体类型,而与时间相关的元素的值类型(如发布、修改和时间等)。)是iso8601标准(www . ISO . org/ISO/home/standards/ISO 8601 . html)。
由于这一系列的标准化和标准化计划要求,美国元数据标准化在“数据创新中心”2015年G8国家开放数据评估中获得满分(10分)[29分。
(3)本地化。结合政府信息化的发展,美国引入并构建了具有地方特色的元数据,实现了对数据集等对象的全面描述。主要表现为:①引入了仅适用于美国联邦政府的元数据元素:联邦代码、程序代码、数据质量、primaryITInvestmentUII和系统记录;(2)符合性,支持数据标准的元素,描述者;支持数据字典或数据模式的元素;③要素分为三类:必需的、在一定条件下必需的和扩展的。
3.1
数据目录的元数据
PODV1.1有六个数据目录元素:@context,@id,@type,conformsTo,describedBy和DCT : Dataset(见表3)。其中,前三个元素取自JSON-LD规范定义的关键字[30],接下来的两个是美国独有的,最后一个来自DCAT。
3.2
数据集的元数据
描述数据集的元素有29个,其中17个来自DCAT(表1中带下划线的元素),1个(DCT :引用)来自都柏林核心元数据,11个是自定义元素(见表4)。
3.3
数据资源元数据
有10个描述数据资源的元素:@type、conformsTo、describedBy、describedByType、dct:title、dct:description、dct:format、DCAT:downloadURL、dcat:accessURL和dcat:mediaType。除了重用dcat的6个元素之外,还有4个自定义元素(见表5)。
4欧盟元数据计划
开放数据是欧盟大数据战略的主要内容之一[31]。2011年12月,欧盟明确提出开放数据战略—— 《开放数据——创新、增长和透明治理的引擎》,为实现欧盟2020年目标提供新的路径和动力。2016年,28个欧盟国家和4个欧洲自由贸易区国家(冰岛、列支敦士登、挪威和瑞士)公开数据的直接市场规模将达到553亿欧元,2020年将增长36.9%,达到757亿欧元,2016-2020年累计直接市场规模为3250亿欧元([32)。
2014年12月,欧盟在CEF框架下启动了“欧洲数据门户项目”。该项目建立的28国统一数据目录门户网站(www . europeandtaportal . eu)从70个数据目录中收集了58万多个数据集。这已经实现。它依赖于欧盟的开放数据元数据方案“欧洲数据门户DCAT应用简介(DCAT-亚太)”。
4.1
DCAT-美联社在欧盟
2013年9月2日,欧盟项目“公共部门互操作性计划”的行动计划“提高欧盟电子政务系统的语义互操作性”发布了DCAT-亚太1.01版。到2015年,会计准则第2号项目已将其修订为版本1.1 [33]。基于W3C DCAT,欧盟DCAT-亚太将类别和属性分为三组:强制、推荐和可选。在22个类别中,DCat :目录、DCat :数据集、SKOS :概念、SKOS :概念、FoAf :代理的7个类别是必备类别。dcat :分布是一个推荐类(关于dcat :目录、dcat :数据集和dcat :分布的一些属性,请参见表6)。14个类别,如DCT : Location、dct:Standard和v:VCard是可选的。对于必需的类和属性,发布者必须提供相应的描述信息。
为了解决分布式数据目录的互操作性和跨语言问题,欧盟data亚太地区引入了一个受控词汇表来规范元数据记录的取值部分属性和受控的值词汇表(见表7)。
作为标准规范,data亚太已被欧盟成员国采用,data亚太已被欧盟和14个国家(奥地利、法国、德国、希腊、爱尔兰、意大利、荷兰、挪威、罗马尼亚、斯洛伐克、斯洛文尼亚、瑞典、西班牙、英国)的开放数据门户采用([34)。
4.2
爱尔兰的元数据方案
爱尔兰于2014年建立了国家数据门户(data.gov.ie)。它在欧盟的“成熟度”处于中上水平([32)。爱尔兰公共支出和改革部成立了一个特别工作组——PBWG(公共机构工作组),将于2015年6月发布“开放数据技术框架”。它由五部分组成:开放数据许可、数据格式、元数据方案、数据标准和标识符[35]。爱尔兰的元数据方案在欧盟data美联社的基础上增加了描述地理数据集的元数据(见表8)。
5中国地方政府元数据方案
不同于美国、英国和欧盟从国家(或政府)层面到地方政府的发展路径,中国的政务公开数据主要来源于地方政府。从2012年开始,一些地方政府率先推出了开放数据门户网站[12(见参考文献[7和[12)。
5.1
元数据方案
基于对各数据目录中实际使用的元数据的调查和分析,本研究以北京、上海和浙江为代表,总结了主要的
元数据元素,并建立了每个元素到DCAT的映射(见表9)。
5.2
缺点
虽然我国这些地方政府开放数据的元数据能够满足现阶段开放数据的基本需求,但仍存在一些不足,如:
(1)元数据标准低。2013年11月,上海市质量技术监督局发布了上海市地方标准《政务信息资源共享与交换实施规范第1部分:目录元数据》,以规范政府部门数据资源公开清单的编制。然而,其他地方政府尚未公布专门的开放数据元数据方案,也没有宣布采用现有的元数据标准或规范(如《政务信息资源目录体系第3部分:核心元数据》 (GB/T 21063.3-2007)),这直接导致元数据标准偏低。例如,北京市政府数据资源网(bjdata.gov.cn)的“资源更新周期”值为“一年”或“每年”,而“在线资源链接地址”值为“WWW”。北京数据网"。因此,用户无法直接从元数据中找到数据资源,从而失去了元数据的价值。
(2)开放数据集的描述不完整。综合各网站普遍缺失的最基本、最重要的元数据(见表10),可以发现“开放许可”、“修改日期”和“标识符”在开放数据晴雨表ODB [7的评价指标中分别占15、10和5分,是影响开放数据质量的核心元数据。中国在2015年奥运会上的综合得分是21.16,在92个国家的排名是55。地方政府调查反映的元数据的不完整性是得分低的重要因素之一。
(3)不支持分布式数据目录的互操作性。调查发现,中国地方政府的公开数据没有描述数据目录的元数据。网站通常没有机器可读的元数据格式;网站之间的元数据有很大差异,这表现在元素的数量、名称和格式不一致。因此,数据目录之间的互操作性水平较低,这使得很难将多个数据门户聚合到一个统一的门户,并且应用程序很难跨多个数据目录读取数据集的元数据。
6对中国元数据建设的启示
2015年9月5日,国务院发布《促进大数据发展行动纲要》,要求在2018年底前建立统一开放的国家政府数据平台([36-37】。2014年12月2日,国家信息标准委员会成立了大数据标准工作组,并开始了大数据(包括开放数据)领域标准的研发([38)。政府公开数据元数据的建设日益迫切。结合中国的国情,国外的先进经验可以在许多方面借鉴。
6.1
政策支持以及法律和监管保护
在《开放数据行动计划》中,所有国家都发布了一些新的政策、法律和法规([6、11、25、39),阐明了元数据的重要性。除了上述美国和欧盟之外,英国《公开数据原则》第14条规定:“公共机构应发布与数据集相关的元数据”。正是政策的支持和法律法规的保护促进了元数据在实践中的标准化和规范化。
我国国家层面没有专门的政府数据开放法规,政府信息版权监管政策体系中也没有“开放许可”的内容[39]。研究表明,缺乏对开放许可的相关规定是核心元数据项
构建完整的元数据标准体系
开放的政府数据将重塑[政府信息管理系统40],包括元数据标准体系。爱尔兰“开放数据技术框架”的五个部分是一个有机的整体,是广义“元数据标准体系”的雏形。开放数据许可、数据格式、数据标准和标识符不仅适用于开放原始数据,也适用于元数据。
遵循标准化和地方化的原则,中国应构建完整的元数据标准体系,实现:(1)支持各级政府公开数据和非政府组织公开数据;(2)将“数据目录”作为支持目录间互操作性的重要描述对象;(3)有核心通用元数据和专门领域的元数据标准(如地理数据集等)。);(4)元数据开放共享的技术保障,如机器可读数据格式标准和模式定义标准;(5)标准化分类系统(如同义词库)、编码系统(如受控同义词库)和元数据值的数据字典。
6.3
重视元数据的语义化
网络是开放数据的第一渠道,并向语义网和数据网(即相关数据)发展。它的显著特点是出现了大量的本体/词汇和相关的开放数据集。为了实现开放数据目录的语义互操作性,W3C、美国和欧盟都采用了语义网和本体技术。
实现元数据语义的主要途径有:(1)开发核心词汇(如DC、FOAF等)。),这是设计元数据方案的基础;(2)通过本体建立元数据的概念模型;(3)使用RDF/XML、JSON-LD等编码元数据;(4)受控词汇通过本体(如SKOS)的形式表示;(5)重用和扩展现有的本体和元数据,构建应用概要。
结论
开放数据是大数据时代政府信息公开的发展和深化。元数据对于用户查找和选择合适的数据集以及聚合数据目录具有重要意义。然而,我国政府开放数据的元数据建设仍处于起步阶段。
本文介绍了世界上主流的元数据方案:W3C DCAT、美国POD v1.1和欧盟DCAT-AP,总结了美国和爱尔兰元数据建设本地化的特点,指出中国的元数据建设应加强政策支持、法律保障、系统完整性和语义方面的工作,以克服目前在标准化、标准化和互操作性方面的不足。
本研究的进一步工作是构建开放数据的元数据方案和规范,研究基于政府信息资源元数据和DCAT元数据的元数据质量度量和评价方法。
数据文件参考:
大数据论文
如何查找毕业论文数据
大数据杂志
纸质数据
大数据论文
数据挖掘论文
本文是关于元数据和灵感的写作,以及政府论文和研究课题的模式。它有助于硕士学位和数据本科学位论文数据论文开放报告模型、相关文献综述和论文题目参考资料。