midas/semeval2010

Name: midas/semeval2010
Creator: midas
Published: 2022-03-05 03:24:16
License: 暂无描述

Hugging Face2022-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/midas/semeval2010

下载链接

链接失效反馈

官方服务：

资源简介：

Semeval-2010数据集用于评估从长文档英文科学文章中提取和生成关键词的技术。该数据集包含284篇来自ACM数字图书馆的英文科学论文，涵盖了四个1998年ACM分类领域：C2.4（分布式系统）、H3.3（信息搜索与检索）、I2.11（分布式人工智能-多代理系统）和J4（社会与行为科学-经济学）。每篇论文都有由读者和作者标注的两组关键词。数据集分为训练集和测试集，分别包含144篇和100篇文章。关键词被分类为提取式和生成式，提取式关键词可以在输入文本中找到，而生成式关键词则不在输入文本中。数据集还提供了BIO标签格式的标记，便于研究人员下载并评估他们的关键词提取和生成模型。

提供机构：

midas

原始信息汇总

数据集概述

数据集名称

Semeval-2010 数据集

原始提出者

Su Nam Kim et al

提出年份

2010年

数据集来源

ACM Digital Library

文档数量

284篇

文档分类

C2.4 (Distributed Systems)
H3.3 (Information Search and Retrieval)
I2.11 (Distributed Artificial Intelligence – Multiagent Systems)
J4 (Social and Behavioral Sciences – Economics)

数据集结构

id: 文档的唯一标识符。
document: 文档中的单词列表，以空格分隔。
doc_bio_tags: 文档中每个单词的BIO标签。
extractive_keyphrases: 文档中出现的所有关键短语。
abstractive_keyphrase: 文档中未出现的所有关键短语。

数据分割

分割	数据点数量
测试	100
训练	144

关键短语分析

训练集中的关键短语：
- 63.01% 是命名实体
- 82.50% 是名词短语
测试集中的关键短语：
- 62.06% 是命名实体
- 78.36% 是名词短语

数据集用途

用于评估关键短语提取和生成技术，特别是在长文档英语科学文章中的应用。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集