yuanchuan/annotated_reference_strings
收藏数据集概述
数据集描述
数据集摘要
annotated_reference_strings 数据集包含数百万条带注释的参考字符串,即每个字符串的每个标记都有一个关联的标签,如作者、标题、年份等。这些字符串是通过在从不同科学领域获取的数百万条引文上使用引文处理器合成的。
支持的任务
该数据集可用于结构预测任务。
语言
数据集由英文参考字符串组成。
数据集结构
数据实例
json { "source": "pubmed", "lang": "en", "entry_type": "article", "doi_prefix": "pubmed19n0001", "csl_style": "annual-reviews", "content": "<citation-number>8.</citation-number> <author>Mohr W.</author> <year>1977.</year> <title>[Morphology of bone tumors. 2. Morphology of benign bone tumors].</title> <container-title>Aktuelle Probleme in Chirurgie und Orthopadie.</container-title> <volume>5:</volume> <page>29–42</page>" }
重要说明
- 每条引文最多渲染为 17 种 CSL 样式,因此会有近似重复。
- 一个段落(由一个或多个标记组成)的所有字符(包括标点符号)都用标签包围。
- 仅作为“连接词”的标记不被标签包围,这些标记将被标记为
other。
- 仅作为“连接词”的标记不被标签包围,这些标记将被标记为
- 某些段落可能被多个标签包围,例如
<issued><year>2021</year></issued>,这取决于样式作者的定义。
数据字段
source: 引文的来源。{pubmed, jstor, crossref}lang: 引文的语言。{en}entry_type: BibTeX 条目类型。{article, book, inbook, misc, techreport, phdthesis, incollection, inproceedings}doi_prefix: 对于 JSTOR 和 CrossRef,它是 DOI 的前缀。对于 PubMed,它是引文生成的目录(例如pubmed19nXXXX,其中XXXX是 4 位数字)。csl_style: 引文渲染的 CSL 样式。content: 特定样式渲染的引文,每个段落用 CSL 变量命名的标签包围。
数据分割
数据分割尚未可用。
数据集创建
源数据
初始数据收集和规范化
用于生成这些参考字符串的引文来自三个主要来源:
- PubMed (2019 年基准)
- 通过 Open Academic Graph v2 的 CrossRef
- JSTOR 示例数据集(截至发布日期未在线提供)
如果引文不是 BibTeX 格式,则使用 bibutils 将其转换为 BibTeX。
源语言生产者
引文渲染为参考字符串的方式基于出版商规定的规则/规范。Citation Style Language (CSL) 是一个确立的标准,规定了这些规范。有数千种引文样式可用。
注释
注释过程
注释过程涉及两个主要干预:
- 修改样式的 CSL 规范,以在渲染过程中注入 CSL 变量名称
- 使用正则表达式对渲染的字符串进行清理,以确保所有标记和字符都被标签包围
注释者
原始 CSL 规范可在 GitHub 上获得。
样式修改和清理过程由本工作的作者完成。
附加信息
许可信息
该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可。
引用信息
该数据集是新加坡国立大学硕士项目的产品。
如果您使用它,请引用以下内容:
bibtex @techreport{kee2021, author = {Yuan Chuan Kee}, title = {Synthesis of a large dataset of annotated reference strings for developing citation parsers}, institution = {National University of Singapore}, year = {2021} }
贡献
感谢 @kylase 添加此数据集。



