taln-ls2n/semeval-2010-pre

Name: taln-ls2n/semeval-2010-pre
Creator: taln-ls2n
Published: 2022-09-23 07:37:43
License: 暂无描述

Hugging Face2022-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taln-ls2n/semeval-2010-pre

下载链接

链接失效反馈

官方服务：

资源简介：

Preprocessed SemEval-2010 Benchmark数据集是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含244篇来自ACM数字图书馆的全文科学论文，关键词由读者和作者共同标注。数据集提供了四个不同级别的文档预处理，从原始文本到使用无监督摘要技术进一步精简的文本。数据集分为训练集和测试集，并提供了详细的统计信息和数据字段，包括文档的唯一标识符、标题、摘要、不同预处理级别的文本内容、关键词列表以及关键词的PRMU分类。

提供机构：

taln-ls2n

原始信息汇总

数据集概述

基本信息

名称: Preprocessed SemEval-2010 Benchmark dataset
语言: 英语 (en)
许可证: cc-by-4.0
多语言性: 单语种
任务类别: 文本挖掘, 文本生成
任务ID: 关键短语生成, 关键短语提取
大小类别: 小于1K

数据集描述

来源: 由244篇来自ACM Digital Library的科学论文组成，用于关键短语提取和生成模型的基准测试。
预处理级别: 提供四个级别的文档预处理：
- lvl-1: 默认文本文件。
- lvl-2: 从原始PDF文件中提取并清理文本。
- lvl-3: 进一步简化文本至相关部分。
- lvl-4: 使用无监督摘要技术进一步简化文本。
关键短语: 提供参考关键短语，并以词干形式呈现，根据PRMU方案分类。
文本预处理: 使用spacy进行标记化，使用nltk进行词干提取。

数据集内容和统计

分割: 训练集（144篇文档）和测试集（100篇文档）。
统计信息: 包括文档数量、单词数量、关键短语数量及PRMU分布。
数据字段:
- id: 文档唯一标识符。
- title: 文档标题。
- abstract: 文档摘要。
- lvl-1 至 lvl-4: 不同级别的文档内容。
- keyphrases: 参考关键短语列表。
- prmu: PRMU分类的关键短语列表。

引用文献

Kim et al., 2010
Chaimongkol et al., 2014
Boudin et al., 2016
Boudin and Gallina, 2021

5,000+

优质数据集

54 个

任务类型

进入经典数据集