copenlu/citeworth
收藏Hugging Face2022-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/citeworth
下载链接
链接失效反馈官方服务:
资源简介:
CiteWorth数据集是一个用于检测科学文档中引用价值(cite-worthiness)的英文数据集。该数据集基于S2ORC数据集构建,包含了大量从科学文档中提取的纯文本数据,并经过严格的清理和标注。数据集的主要任务是文本分类,具体是判断一个句子是否引用了外部来源。数据集的创建过程在相关论文中有详细描述,且数据集的质量高、具有挑战性,适合用于研究领域适应等问题。
提供机构:
copenlu
原始信息汇总
数据集概述:CiteWorth
数据集描述
- 名称:CiteWorth
- 语言:英语
- 许可证:CC-BY-NC-4.0
- 多语言性:单语种
- 大小:1M<n<10M
- 来源数据集:S2ORC(扩展)
- 标签:
- 引用检测
- 引用
- 科学
- 学术文档
- 生物
- 医学
- 计算机科学
- 引用价值
- 任务类别:文本分类
数据集结构
- paper_id:S2ORC论文ID
- section_idx:原始S2ORC数据中章节数组索引
- file_index:S2ORC数据集中论文所属卷
- file_offset:S2ORC论文PDF文件中论文JSON的起始字节偏移
- mag_field_of_study:论文所属领域
- original_text:段落原文
- section_title:段落所属章节标题
- samples:段落中句子数组,每个句子包含:
text:句子清理后的文本label:句子标签,check-worthy(引用价值)或non-check-worthy(非引用价值)original_text:句子原文ref_ids:句子中引用的论文在S2ORC数据集中的ID列表citation_text:句子中的所有引用文本列表
数据集创建
- 来源:S2ORC数据集20200705v1版本
- 许可证:CC By-NC 2.0
- 详细创建过程:参见论文第3节
引用信息
@inproceedings{wright2021citeworth, title={{CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Findings of ACL-IJCNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }



