five

taln-ls2n/semeval-2010-pre

收藏
Hugging Face2022-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/semeval-2010-pre
下载链接
链接失效反馈
官方服务:
资源简介:
Preprocessed SemEval-2010 Benchmark数据集是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含244篇来自ACM数字图书馆的全文科学论文,关键词由读者和作者共同标注。数据集提供了四个不同级别的文档预处理,从原始文本到使用无监督摘要技术进一步精简的文本。数据集分为训练集和测试集,并提供了详细的统计信息和数据字段,包括文档的唯一标识符、标题、摘要、不同预处理级别的文本内容、关键词列表以及关键词的PRMU分类。
提供机构:
taln-ls2n
原始信息汇总

数据集概述

基本信息

  • 名称: Preprocessed SemEval-2010 Benchmark dataset
  • 语言: 英语 (en)
  • 许可证: cc-by-4.0
  • 多语言性: 单语种
  • 任务类别: 文本挖掘, 文本生成
  • 任务ID: 关键短语生成, 关键短语提取
  • 大小类别: 小于1K

数据集描述

  • 来源: 由244篇来自ACM Digital Library的科学论文组成,用于关键短语提取和生成模型的基准测试。
  • 预处理级别: 提供四个级别的文档预处理:
    • lvl-1: 默认文本文件。
    • lvl-2: 从原始PDF文件中提取并清理文本。
    • lvl-3: 进一步简化文本至相关部分。
    • lvl-4: 使用无监督摘要技术进一步简化文本。
  • 关键短语: 提供参考关键短语,并以词干形式呈现,根据PRMU方案分类。
  • 文本预处理: 使用spacy进行标记化,使用nltk进行词干提取。

数据集内容和统计

  • 分割: 训练集(144篇文档)和测试集(100篇文档)。
  • 统计信息: 包括文档数量、单词数量、关键短语数量及PRMU分布。
  • 数据字段:
    • id: 文档唯一标识符。
    • title: 文档标题。
    • abstract: 文档摘要。
    • lvl-1lvl-4: 不同级别的文档内容。
    • keyphrases: 参考关键短语列表。
    • prmu: PRMU分类的关键短语列表。

引用文献

  • Kim et al., 2010
  • Chaimongkol et al., 2014
  • Boudin et al., 2016
  • Boudin and Gallina, 2021
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作