five

copenlu/citeworth

收藏
Hugging Face2022-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/citeworth
下载链接
链接失效反馈
官方服务:
资源简介:
CiteWorth数据集是一个用于检测科学文档中引用价值(cite-worthiness)的英文数据集。该数据集基于S2ORC数据集构建,包含了大量从科学文档中提取的纯文本数据,并经过严格的清理和标注。数据集的主要任务是文本分类,具体是判断一个句子是否引用了外部来源。数据集的创建过程在相关论文中有详细描述,且数据集的质量高、具有挑战性,适合用于研究领域适应等问题。
提供机构:
copenlu
原始信息汇总

数据集概述:CiteWorth

数据集描述

  • 名称:CiteWorth
  • 语言:英语
  • 许可证:CC-BY-NC-4.0
  • 多语言性:单语种
  • 大小:1M<n<10M
  • 来源数据集:S2ORC(扩展)
  • 标签
    • 引用检测
    • 引用
    • 科学
    • 学术文档
    • 生物
    • 医学
    • 计算机科学
    • 引用价值
  • 任务类别:文本分类

数据集结构

  • paper_id:S2ORC论文ID
  • section_idx:原始S2ORC数据中章节数组索引
  • file_index:S2ORC数据集中论文所属卷
  • file_offset:S2ORC论文PDF文件中论文JSON的起始字节偏移
  • mag_field_of_study:论文所属领域
  • original_text:段落原文
  • section_title:段落所属章节标题
  • samples:段落中句子数组,每个句子包含:
    • text:句子清理后的文本
    • label:句子标签,check-worthy(引用价值)或non-check-worthy(非引用价值)
    • original_text:句子原文
    • ref_ids:句子中引用的论文在S2ORC数据集中的ID列表
    • citation_text:句子中的所有引用文本列表

数据集创建

  • 来源:S2ORC数据集20200705v1版本
  • 许可证:CC By-NC 2.0
  • 详细创建过程:参见论文第3节

引用信息

@inproceedings{wright2021citeworth, title={{CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Findings of ACL-IJCNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作