five

midas/semeval2010

收藏
Hugging Face2022-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/semeval2010
下载链接
链接失效反馈
官方服务:
资源简介:
Semeval-2010数据集用于评估从长文档英文科学文章中提取和生成关键词的技术。该数据集包含284篇来自ACM数字图书馆的英文科学论文,涵盖了四个1998年ACM分类领域:C2.4(分布式系统)、H3.3(信息搜索与检索)、I2.11(分布式人工智能-多代理系统)和J4(社会与行为科学-经济学)。每篇论文都有由读者和作者标注的两组关键词。数据集分为训练集和测试集,分别包含144篇和100篇文章。关键词被分类为提取式和生成式,提取式关键词可以在输入文本中找到,而生成式关键词则不在输入文本中。数据集还提供了BIO标签格式的标记,便于研究人员下载并评估他们的关键词提取和生成模型。
提供机构:
midas
原始信息汇总

数据集概述

数据集名称

Semeval-2010 数据集

原始提出者

Su Nam Kim et al

提出年份

2010年

数据集来源

ACM Digital Library

文档数量

284篇

文档分类

  • C2.4 (Distributed Systems)
  • H3.3 (Information Search and Retrieval)
  • I2.11 (Distributed Artificial Intelligence – Multiagent Systems)
  • J4 (Social and Behavioral Sciences – Economics)

数据集结构

  • id: 文档的唯一标识符。
  • document: 文档中的单词列表,以空格分隔。
  • doc_bio_tags: 文档中每个单词的BIO标签。
  • extractive_keyphrases: 文档中出现的所有关键短语。
  • abstractive_keyphrase: 文档中未出现的所有关键短语。

数据分割

分割 数据点数量
测试 100
训练 144

关键短语分析

  • 训练集中的关键短语:
    • 63.01% 是命名实体
    • 82.50% 是名词短语
  • 测试集中的关键短语:
    • 62.06% 是命名实体
    • 78.36% 是名词短语

数据集用途

用于评估关键短语提取和生成技术,特别是在长文档英语科学文章中的应用。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作