five

Citations with identifiers in Wikipedia

收藏
figshare.com2023-05-30 更新2025-01-15 收录
下载链接:
https://figshare.com/articles/dataset/Citations_with_identifiers_in_Wikipedia/1299540/1
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset includes a list of citations with identifiers extracted from the most recent version of Wikipedia across all language editions. The data was parsed from the Wikipedia content dumps published on March 1, 2018. License All files included in this datasets are released under CC0: https://creativecommons.org/publicdomain/zero/1.0/ Projects Previous versions of this dataset ("Scholarly citations in Wikipedia") were limited to the English language edition. The current version includes one dataset for each of the 298 languages editions that Wikipedia supports as of March 2018. Projects are identified by their ISO 639-1/639-2 language code, per https://meta.wikimedia.org/wiki/List_of_Wikipedias. Identifiers • PubMed IDs (pmid) and PubMedCentral IDs (pmcid).• Digital Object Identifiers (doi)• International Standard Book Number (isbn)• ArXiv Ids (arxiv) Format Each row in the dataset represents a citation as a (Wikipedia article, cited source) pair. Metadata about when the citation was first added is included. • page_id -- The identifier of the Wikipedia article (int), e.g. 1325125• page_title -- The title of the Wikipedia article (utf-8), e.g. Club cell• rev_id -- The Wikipedia revision where the citation was first added (int), e.g. 282470030• timestamp -- The timestamp of the revision where the citation was first added. (ISO 8601 datetime), e.g. 2009-04-08T01:52:20Z• type -- The type of identifier, e.g. pmid• id -- The id of the cited source (utf-8), e.g. 18179694 Source code https://github.com/halfak/Extract-scholarly-article-citations-from-Wikipedia (MIT Licensed) A copy of this dataset is also available at https://analytics.wikimedia.org/datasets/archive/public-datasets/all/mwrefs/Notes Citation identifers are extracted as-is from Wikipedia article content. Our spot-checking suggests that 98% of identifiers resolve.

本数据集收录了从包括所有语言版本在内的最新版维基百科中提取的参考文献标识列表。数据解析自2018年3月1日发布的维基百科内容存档。 许可 本数据集包含的所有文件均采用CC0协议发布:https://creativecommons.org/publicdomain/zero/1.0/ 项目 此数据集的前版本(“维基百科中的学术引用”)仅限于英语语言版本。当前版本包括截至2018年3月,维基百科支持的298种语言版本之一的每个数据集。项目通过其ISO 639-1/639-2语言代码进行标识,具体请参阅https://meta.wikimedia.org/wiki/List_of_Wikipedias。 标识符 • PubMed IDs (pmid) 和 PubMedCentral IDs (pmcid) • 数字对象标识符 (doi) • 国际标准书号 (isbn) • ArXiv Ids (arxiv) 格式 数据集中每一行代表一个参考文献,以(维基百科文章,引用来源)对的形式呈现。其中包含关于引用首次添加时间的元数据。 • page_id -- 维基百科文章的标识符(整数),例如:1325125 • page_title -- 维基百科文章的标题(UTF-8编码),例如:肺细胞 • rev_id -- 首次添加引用的维基百科修订版本(整数),例如:282470030 • timestamp -- 首次添加引用的修订版本的时间戳。(ISO 8601日期时间),例如:2009-04-08T01:52:20Z • type -- 标识符的类型,例如:pmid • id -- 被引用来源的id(UTF-8编码),例如:18179694 源代码 https://github.com/halfak/Extract-scholarly-article-citations-from-Wikipedia(MIT许可协议) 此数据集的副本也可在以下地址获取:https://analytics.wikimedia.org/datasets/archive/public-datasets/all/mwrefs/Notes 注意事项 引用标识符从维基百科文章内容中直接提取。我们的抽样检查表明,98%的标识符能够成功解析。
提供机构:
figshare
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作