five

midas/inspec

收藏
Hugging Face2022-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/inspec
下载链接
链接失效反馈
官方服务:
资源简介:
Inspec数据集用于从英文科学论文摘要中提取和生成关键词的基准测试。该数据集包含来自Inspec数据库的2000篇摘要,涵盖1998年至2002年间发表的计算机与控制以及信息技术领域的论文。每篇摘要都有两组关键词:受控和非受控,由专业索引员标注。该数据集的独特之处在于它提供了由专业索引员标注的关键词,这在关键词文献中并不常见。数据集分为训练集、开发集和测试集,并提供了关键词长度和其他元数据的详细统计信息。数据集还提供了BIO格式的标记,用于序列标注任务。

The Inspec dataset serves as a benchmark for keyword extraction and generation from English scientific paper abstracts. It contains 2000 abstracts sourced from the Inspec database, covering papers published between 1998 and 2002 in the fields of computer and control, as well as information technology. Each abstract is paired with two sets of keywords: controlled and uncontrolled, which are annotated by professional indexers. A distinctive feature of this dataset is that it provides keywords annotated by professional indexers, a rarity in keyword-related research literature. The dataset is split into training, development, and test sets, and includes detailed statistics on keyword lengths and other metadata. It also provides BIO-format tags for sequence labeling tasks.
提供机构:
midas
原始信息汇总

数据集概述

Inspec数据集最初由Hulth在2003年的论文《Improved automatic keyword extraction given more linguistic knowledge》中提出。该数据集包含2,000篇来自Inspec数据库的英语科学论文摘要,这些摘要来自计算机和控制以及信息技术领域,发表于1998年至2002年之间。每个摘要由专业索引员标注了两组关键词:controlled(来自Inspec叙词表,通常不在摘要文本中)和uncontrolled(索引员在阅读全文后选择的关键词)。

数据集结构

数据字段

  • id: 文档的唯一标识符。
  • document: 文档中的单词列表,以空格分隔。
  • doc_bio_tags: 文档中每个单词的BIO标签,B表示关键词的开始,I表示关键词内部,O表示非关键词。
  • extractive_keyphrases: 存在于文档中的关键词列表。
  • abstractive_keyphrase: 不存在于文档中的关键词列表。

数据分割

  • Train: 1,000条数据
  • Test: 500条数据
  • Validation: 500条数据

数据集统计

关键词长度统计

抽象关键词(Abstractive Keyphrases)

单词数 Train Test Validation
单个词 9.0% 9.5% 10.1%
两个词 50.4% 48.2% 45.7%
三个词 27.6% 28.6% 29.8%
四个词 9.3% 10.3% 10.3%
五个词 2.4% 2.0% 3.2%
六个词 0.9% 1.2% 0.7%
七个词 0.3% 0.2% 0.2%
八个词 0.1% 0% 0.1%
九个词 0% 0.1% 0%

抽取关键词(Extractive Keyphrases)

单词数 Train Test Validation
单个词 16.2% 15.4% 17.0%
两个词 52.4% 54.8% 51.6%
三个词 24.3% 22.99% 24.3%
四个词 5.6% 4.96% 5.8%
五个词 1.2% 1.3% 1.1%
六个词 0.2% 0.36% 0.2%
七个词 0.1% 0.06% 0.1%
八个词 0% 0% 0.03%

一般统计

分析类型 Train Test Validation
标注者类型 专业索引员 专业索引员 专业索引员
文档类型 Inspec数据库摘要 Inspec数据库摘要 Inspec数据库摘要
文档数量 1000 500 500
平均文档长度(单词) 141.5 134.6 132.6
最大文档长度(单词) 557 384 330
文档中最大抽象关键词数量 17 20 14
文档中最小抽象关键词数量 0 0 0
文档中平均抽象关键词数量 3.39 3.26 3.12
文档中最大抽取关键词数量 24 27 22
文档中最小抽取关键词数量 0 0 0
文档中平均抽取关键词数量 6.39 6.56 5.95

其他统计

  • 命名实体关键词占比:55.25%(使用scispacy - en-core-sci-lg模型检测)
  • 名词短语关键词占比:73.59%(使用spacy去除限定词后检测)
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索与自然语言处理领域,关键词提取与生成技术的评估依赖于高质量标注数据集。Inspec数据集的构建源于Hulth于2003年提出的研究,其核心内容涵盖了2000篇英文科学论文摘要,这些论文均选自Inspec数据库,覆盖了1998年至2002年间计算机与控制及信息技术领域的学术文献。专业索引人员为每篇摘要标注了两类关键短语:受控关键短语源自Inspec同义词库,多数不在摘要文本中出现;非受控关键短语则由索引人员通读全文后选定,大部分可在摘要中找到。数据集的训练、验证与测试划分采用了任意分配方式,确保了数据分布的随机性。
特点
该数据集的独特之处在于其标注来源的专业性,不同于常见作者自标注的关键短语数据集,Inspec提供了由专业索引人员标注的关键短语,这为关键词提取与生成任务提供了更可靠的基准。数据集将关键短语分为提取式与抽象式两类,提取式关键短语直接来源于文本,而抽象式关键短语则需基于语义理解生成。此外,数据集还提供了BIO标注格式的令牌标签,支持序列标注模型的训练与评估。统计数据显示,关键短语中命名实体占比55.25%,名词短语占比73.59%,反映了其在学术文本中的丰富语义结构。
使用方法
研究人员可通过Hugging Face的datasets库便捷地加载Inspec数据集,使用load_dataset函数并指定“midas/inspec”与“raw”参数即可获取完整数据。数据集包含id、document、doc_bio_tags、extractive_keyphrases和abstractive_keyphrases等字段,支持对关键词提取与生成任务的直接评估。用户可分别访问训练、验证与测试分割,利用提供的BIO标签进行序列标注模型训练,或基于提取式与抽象式关键短语开发生成式模型。该数据集的设计旨在简化程序化下载与评估流程,促进自然语言处理技术在学术文本分析中的应用。
背景与挑战
背景概述
在自然语言处理领域,关键词提取与生成技术的研究长期依赖于高质量标注数据。Inspec数据集由Hulth于2003年提出,源自Inspec数据库中1998年至2002年间计算机与控制、信息技术领域的2000篇英文科学论文摘要。该数据集的核心价值在于其标注由专业索引员完成,包含受控与非受控两类关键短语,为关键词提取任务提供了独特的专业标注视角。相较于作者自标注的数据集,Inspec通过区分抽取式与生成式关键短语,推动了关键词提取从传统方法向序列标注与上下文嵌入模型的演进,成为该领域重要的基准数据集。
当前挑战
Inspec数据集所针对的关键词提取领域面临多重挑战:模型需同时处理抽取式与生成式关键短语,后者仅18.1%出现在文本中,要求算法具备深层语义理解与生成能力。数据构建过程中,专业索引员的标注虽提升了质量,但受控关键短语与文本的低匹配度增加了标注一致性难度;数据划分的任意性及原始论文筛选标准不明,可能引入分布偏差。此外,关键短语中55.25%为命名实体、73.59%为名词短语的语言特性,对模型的细粒度识别能力提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,关键词提取与生成技术的研究常依赖于高质量标注数据集。Inspec数据集以其专业索引员标注的权威性,成为评估算法性能的经典基准。该数据集收录了计算机与控制及信息技术领域的英文科学论文摘要,并区分了抽取式与生成式关键词,为模型训练与验证提供了结构化语料。研究者通过该数据集能够系统比较不同方法在识别文本核心概念方面的效能,从而推动自动摘要和信息检索技术的发展。
解决学术问题
该数据集有效解决了关键词提取研究中标注质量参差不齐的学术难题。传统数据集中作者自标注的关键词常存在主观偏差,而Inspec通过专业索引员标注提供了可靠的标准答案。其区分抽取式与生成式关键词的特性,促使学术界深入探讨显式与隐式语义表达问题。这一设计不仅提升了模型评估的可信度,还为理解人类标注行为与自动算法之间的差距提供了实证基础,对语义表示理论产生了深远影响。
衍生相关工作
围绕Inspec数据集衍生出多项经典研究工作,例如将关键词提取视为序列标注任务并利用上下文嵌入的模型架构。这些研究不仅探索了传统机器学习方法在关键词识别中的应用,还推动了深度学习模型如BERT在该领域的适配与优化。后续工作进一步扩展了数据集的用途,将其应用于跨语言关键词生成、低资源场景下的迁移学习等前沿方向,持续丰富着自然语言处理的技术图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作