midas/semeval2010
收藏Hugging Face2022-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/semeval2010
下载链接
链接失效反馈官方服务:
资源简介:
Semeval-2010数据集用于评估从长文档英文科学文章中提取和生成关键词的技术。该数据集包含284篇来自ACM数字图书馆的英文科学论文,涵盖了四个1998年ACM分类领域:C2.4(分布式系统)、H3.3(信息搜索与检索)、I2.11(分布式人工智能-多代理系统)和J4(社会与行为科学-经济学)。每篇论文都有由读者和作者标注的两组关键词。数据集分为训练集和测试集,分别包含144篇和100篇文章。关键词被分类为提取式和生成式,提取式关键词可以在输入文本中找到,而生成式关键词则不在输入文本中。数据集还提供了BIO标签格式的标记,便于研究人员下载并评估他们的关键词提取和生成模型。
提供机构:
midas
原始信息汇总
数据集概述
数据集名称
Semeval-2010 数据集
原始提出者
Su Nam Kim et al
提出年份
2010年
数据集来源
ACM Digital Library
文档数量
284篇
文档分类
- C2.4 (Distributed Systems)
- H3.3 (Information Search and Retrieval)
- I2.11 (Distributed Artificial Intelligence – Multiagent Systems)
- J4 (Social and Behavioral Sciences – Economics)
数据集结构
- id: 文档的唯一标识符。
- document: 文档中的单词列表,以空格分隔。
- doc_bio_tags: 文档中每个单词的BIO标签。
- extractive_keyphrases: 文档中出现的所有关键短语。
- abstractive_keyphrase: 文档中未出现的所有关键短语。
数据分割
| 分割 | 数据点数量 |
|---|---|
| 测试 | 100 |
| 训练 | 144 |
关键短语分析
- 训练集中的关键短语:
- 63.01% 是命名实体
- 82.50% 是名词短语
- 测试集中的关键短语:
- 62.06% 是命名实体
- 78.36% 是名词短语
数据集用途
用于评估关键短语提取和生成技术,特别是在长文档英语科学文章中的应用。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



