five

yuanchuan/annotated_reference_strings

收藏
Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuanchuan/annotated_reference_strings
下载链接
链接失效反馈
官方服务:
资源简介:
`annotated_reference_strings`数据集包含数百万个带注释的引用字符串,每个字符串的标记都有相关的标签,如作者、标题、年份等。这些字符串是通过引用处理器从各种来源的引用中合成的,涵盖了不同的科学领域。数据集支持结构预测任务,且所有引用字符串均为英文。数据集的创建过程涉及从PubMed、CrossRef和JSTOR等来源获取引用,并使用CSL(Citation Style Language)规范进行渲染和注释。数据集的结构包括数据实例、数据字段和数据分割等信息。
提供机构:
yuanchuan
原始信息汇总

数据集概述

数据集描述

数据集摘要

annotated_reference_strings 数据集包含数百万条带注释的参考字符串,即每个字符串的每个标记都有一个关联的标签,如作者、标题、年份等。这些字符串是通过在从不同科学领域获取的数百万条引文上使用引文处理器合成的。

支持的任务

该数据集可用于结构预测任务。

语言

数据集由英文参考字符串组成。

数据集结构

数据实例

json { "source": "pubmed", "lang": "en", "entry_type": "article", "doi_prefix": "pubmed19n0001", "csl_style": "annual-reviews", "content": "<citation-number>8.</citation-number> <author>Mohr W.</author> <year>1977.</year> <title>[Morphology of bone tumors. 2. Morphology of benign bone tumors].</title> <container-title>Aktuelle Probleme in Chirurgie und Orthopadie.</container-title> <volume>5:</volume> <page>29–42</page>" }

重要说明

  1. 每条引文最多渲染为 17 种 CSL 样式,因此会有近似重复。
  2. 一个段落(由一个或多个标记组成)的所有字符(包括标点符号)都用标签包围。
    1. 仅作为“连接词”的标记不被标签包围,这些标记将被标记为 other
  3. 某些段落可能被多个标签包围,例如 <issued><year>2021</year></issued>,这取决于样式作者的定义。

数据字段

  • source: 引文的来源。{pubmed, jstor, crossref}
  • lang: 引文的语言。{en}
  • entry_type: BibTeX 条目类型。{article, book, inbook, misc, techreport, phdthesis, incollection, inproceedings}
  • doi_prefix: 对于 JSTOR 和 CrossRef,它是 DOI 的前缀。对于 PubMed,它是引文生成的目录(例如 pubmed19nXXXX,其中 XXXX 是 4 位数字)。
  • csl_style: 引文渲染的 CSL 样式。
  • content: 特定样式渲染的引文,每个段落用 CSL 变量命名的标签包围。

数据分割

数据分割尚未可用。

数据集创建

源数据

初始数据收集和规范化

用于生成这些参考字符串的引文来自三个主要来源:

如果引文不是 BibTeX 格式,则使用 bibutils 将其转换为 BibTeX。

源语言生产者

引文渲染为参考字符串的方式基于出版商规定的规则/规范。Citation Style Language (CSL) 是一个确立的标准,规定了这些规范。有数千种引文样式可用。

注释

注释过程

注释过程涉及两个主要干预:

  1. 修改样式的 CSL 规范,以在渲染过程中注入 CSL 变量名称
  2. 使用正则表达式对渲染的字符串进行清理,以确保所有标记和字符都被标签包围

注释者

原始 CSL 规范可在 GitHub 上获得。

样式修改和清理过程由本工作的作者完成。

附加信息

许可信息

该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可。

引用信息

该数据集是新加坡国立大学硕士项目的产品。

如果您使用它,请引用以下内容:

bibtex @techreport{kee2021, author = {Yuan Chuan Kee}, title = {Synthesis of a large dataset of annotated reference strings for developing citation parsers}, institution = {National University of Singapore}, year = {2021} }

贡献

感谢 @kylase 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作