taln-ls2n/semeval-2010-pre
收藏Hugging Face2022-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/semeval-2010-pre
下载链接
链接失效反馈官方服务:
资源简介:
Preprocessed SemEval-2010 Benchmark数据集是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含244篇来自ACM数字图书馆的全文科学论文,关键词由读者和作者共同标注。数据集提供了四个不同级别的文档预处理,从原始文本到使用无监督摘要技术进一步精简的文本。数据集分为训练集和测试集,并提供了详细的统计信息和数据字段,包括文档的唯一标识符、标题、摘要、不同预处理级别的文本内容、关键词列表以及关键词的PRMU分类。
提供机构:
taln-ls2n
原始信息汇总
数据集概述
基本信息
- 名称: Preprocessed SemEval-2010 Benchmark dataset
- 语言: 英语 (en)
- 许可证: cc-by-4.0
- 多语言性: 单语种
- 任务类别: 文本挖掘, 文本生成
- 任务ID: 关键短语生成, 关键短语提取
- 大小类别: 小于1K
数据集描述
- 来源: 由244篇来自ACM Digital Library的科学论文组成,用于关键短语提取和生成模型的基准测试。
- 预处理级别: 提供四个级别的文档预处理:
lvl-1: 默认文本文件。lvl-2: 从原始PDF文件中提取并清理文本。lvl-3: 进一步简化文本至相关部分。lvl-4: 使用无监督摘要技术进一步简化文本。
- 关键短语: 提供参考关键短语,并以词干形式呈现,根据PRMU方案分类。
- 文本预处理: 使用
spacy进行标记化,使用nltk进行词干提取。
数据集内容和统计
- 分割: 训练集(144篇文档)和测试集(100篇文档)。
- 统计信息: 包括文档数量、单词数量、关键短语数量及PRMU分布。
- 数据字段:
- id: 文档唯一标识符。
- title: 文档标题。
- abstract: 文档摘要。
- lvl-1 至 lvl-4: 不同级别的文档内容。
- keyphrases: 参考关键短语列表。
- prmu: PRMU分类的关键短语列表。
引用文献
- Kim et al., 2010
- Chaimongkol et al., 2014
- Boudin et al., 2016
- Boudin and Gallina, 2021



