five

Wikidata|数据库数据集|数据共享数据集

收藏
Mendeley Data2024-01-31 更新2024-06-30 收录
数据库
数据共享
下载链接:
https://fairsharing.org/FAIRsharing.6s749p
下载链接
链接失效反馈
资源简介:
The source of this description is the metadata record on FAIRsharing.org, an educational and informative resource that describes and links databases, standards, and data policies. FAIRsharing also creates collections of these resources and recommendations of databases and standards based on 3rd party data policies.
创建时间:
2024-01-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
Wikidata数据集的构建基于全球社区的协作编辑,通过开放的编辑平台,任何用户都可以提交、修改和扩展数据条目。其核心机制包括三元组(实体-属性-值)的形式,确保数据的一致性和可扩展性。数据集的更新频率极高,依赖于社区的活跃度和自动化工具的支持,从而实现实时数据同步和错误修正。
使用方法
Wikidata数据集的使用方法多样,适用于学术研究、数据分析和知识图谱构建等多个领域。用户可以通过SPARQL查询语言直接访问和提取所需数据,进行深入分析。对于开发者,Wikidata提供了API接口,便于集成到各类应用中。此外,数据集的开放编辑特性也鼓励用户参与数据的完善和扩展,形成一个动态的知识生态系统。
背景与挑战
背景概述
Wikidata,作为维基媒体基金会旗下的一个协作式多语言知识库,自2012年由德国的丹尼尔·米哈尔斯基(Daniel Mietchen)和英国的达米安·麦克唐纳(Damian McBride)等人创建以来,已成为全球知识图谱构建的重要基石。其核心研究问题在于如何通过众包和自动化工具,高效地整合、验证和扩展多源异构数据,以支持跨领域的知识发现和应用。Wikidata不仅为学术研究提供了丰富的数据资源,还极大地推动了自然语言处理、语义网和人工智能等前沿技术的发展。
当前挑战
尽管Wikidata在知识整合方面取得了显著成就,但其构建过程中仍面临诸多挑战。首先,数据质量的保证是一个持续的难题,众包模式下数据的准确性和一致性难以完全控制。其次,随着数据量的急剧增长,如何高效地管理和检索海量信息成为技术瓶颈。此外,跨语言和跨文化的数据对齐与融合,以及数据隐私和安全问题,也是Wikidata需要不断应对的挑战。这些问题的解决,不仅关乎Wikidata自身的可持续发展,也对整个知识图谱领域具有深远影响。
发展历史
创建时间与更新
Wikidata于2012年10月30日正式发布,由维基媒体基金会主导开发。自发布以来,Wikidata持续进行更新,数据内容不断丰富,涵盖了全球各类知识信息。
重要里程碑
Wikidata的重要里程碑包括2013年引入的SPARQL查询服务,这使得用户能够高效地检索和分析数据。2014年,Wikidata开始支持多语言标签和描述,极大地增强了其国际化特性。2016年,Wikidata与维基百科的深度整合,使得维基百科页面可以直接引用Wikidata的数据,进一步提升了数据的可访问性和准确性。
当前发展情况
当前,Wikidata已成为全球最大的开放知识库之一,拥有超过10亿条数据项。其数据被广泛应用于学术研究、数据分析和信息检索等多个领域,对推动知识共享和数据开放具有重要意义。Wikidata的持续发展不仅丰富了全球知识图谱,还为人工智能和机器学习提供了宝贵的数据资源,促进了相关技术的进步。
发展历程
  • Wikidata项目正式启动,旨在创建一个自由且多语言的知识库,供Wikimedia基金会旗下的项目使用。
    2012年
  • Wikidata发布首个版本,开始逐步集成到维基百科中,提供结构化数据支持。
    2013年
  • Wikidata引入SPARQL查询接口,使得用户能够通过编程方式访问和查询数据。
    2014年
  • Wikidata的数据量突破1000万个条目,成为全球最大的开放知识库之一。
    2015年
  • Wikidata开始支持多语言标签和描述,进一步增强了其国际化特性。
    2016年
  • Wikidata推出Wikidata Query Service,提供更强大的数据查询和分析功能。
    2017年
  • Wikidata的数据量达到5000万个条目,继续扩展其知识库的规模和深度。
    2018年
  • Wikidata引入机器学习工具,帮助自动识别和分类数据,提高数据质量。
    2019年
  • Wikidata的数据量突破1亿个条目,成为全球最大的开放知识库。
    2020年
  • Wikidata开始支持时间线数据,使得历史事件和时间序列数据的管理更加便捷。
    2021年
常用场景
经典使用场景
在知识图谱构建领域,Wikidata 数据集被广泛用于创建和维护大规模的知识库。其丰富的实体和关系信息,使得研究人员能够构建出高度结构化的知识图谱,从而支持自然语言处理、信息检索和语义搜索等任务。通过整合来自不同语言和领域的数据,Wikidata 为跨语言知识融合提供了坚实的基础。
解决学术问题
Wikidata 数据集解决了知识图谱构建中的多语言和多领域数据整合问题。传统的知识图谱构建往往受限于单一语言或领域,而 Wikidata 通过其开放的编辑模式和多语言支持,极大地扩展了知识图谱的覆盖范围。这不仅促进了跨语言研究的发展,还为多领域知识的融合提供了新的可能性,推动了知识图谱在学术研究中的应用。
实际应用
在实际应用中,Wikidata 数据集被广泛用于智能问答系统、语义搜索引擎和知识图谱驱动的推荐系统。例如,Google 的 Knowledge Graph 就大量使用了 Wikidata 的数据,以提供更精准的搜索结果。此外,Wikidata 还被用于教育和文化领域,支持跨语言的百科知识传播和文化交流,极大地丰富了公众的知识获取途径。
数据集最近研究
最新研究方向
在知识图谱领域,Wikidata作为开放且多语言的知识库,其最新研究方向主要集中在知识图谱的扩展与应用。研究者们致力于通过自动化工具和算法,不断丰富Wikidata的内容,提升其覆盖率和准确性。此外,Wikidata在跨语言知识融合和语义搜索中的应用也备受关注,通过整合多语言数据,研究者们探索如何提高信息检索的效率和精度。这些研究不仅推动了知识图谱技术的发展,也为跨文化交流和全球信息共享提供了新的可能性。
相关研究论文
  • 1
    Wikidata: A Free Collaborative KnowledgebaseWikimedia Foundation · 2014年
  • 2
    Wikidata: A Large-Scale Collaborative Ontological ResourceWikimedia Foundation · 2019年
  • 3
    Leveraging Wikidata for Knowledge Graph ConstructionUniversity of Bonn · 2020年
  • 4
    Wikidata as a Linked Data Hub: A Case Study on Cultural HeritageUniversity of Southampton · 2018年
  • 5
    Wikidata: A Multilingual Data Hub for the WebWikimedia Foundation · 2017年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

Yahoo Finance Historical Data

该数据集包含来自Yahoo Finance的历史股票数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集的时间跨度从2000年1月至今,提供了全球多个市场的股票数据。

finance.yahoo.com 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录