five

midas/citeulike180

收藏
Hugging Face2022-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/citeulike180
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于评估从长文档英文科学文章中提取和生成关键词的技术。数据集包含文档的唯一标识符、文档内容、文档的BIO标签、提取的关键词和生成的关键词。数据分割部分仅包含测试集,共有182个数据点。

This dataset is designed to evaluate techniques for keyword extraction and generation from long-form English scientific articles. It includes the unique identifier of each document, the document content, the document's BIO tags, the extracted keywords, and the generated keywords. The data split only contains the test set, with a total of 182 data points.
提供机构:
midas
原始信息汇总

数据集概述

数据集名称

Citeulike180

数据集目的

用于评估和比较长文档英文科学文章中的关键短语提取和生成技术。

数据集结构

数据字段

  • id: 文档的唯一标识符。
  • document: 文档中的单词列表,以空格分隔。
  • doc_bio_tags: 文档中每个单词的BIO标签,其中B表示关键短语的开始,I表示关键短语内部,O表示不属于关键短语的单词。
  • extractive_keyphrases: 文档中实际存在的关键短语列表。
  • abstractive_keyphrases: 文档中不存在但可能相关的关键短语列表。

数据分割

  • Test: 182个数据点。

数据集使用

数据集可以通过以下方式加载: python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("midas/citeulike180", "raw")

引用信息

@inproceedings{medelyan-etal-2009-human, title = "Human-competitive tagging using automatic keyphrase extraction", author = "Medelyan, Olena and Frank, Eibe and Witten, Ian H.", booktitle = "Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing", month = aug, year = "2009", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D09-1137", pages = "1318--1327", }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,关键词提取与生成任务对高质量标注数据的需求日益增长。CiteULike180数据集的构建源于对长文档英文科学文献的系统性处理,其原始数据来源于学术论文,通过人工标注与自动化流程相结合的方式,为每个文档生成了精确的关键词标注。具体而言,文档中的每个词汇均被赋予BIO标签,以标识关键词的起始、内部及外部位置,同时区分了文档中实际出现的关键词与需要生成但未出现的关键词,确保了标注的一致性与可复用性。
使用方法
研究人员可通过HuggingFace的datasets库便捷地加载CiteULike180数据集,该库支持多种配置以适应不同任务需求。例如,使用“raw”配置可获取完整标注数据,而“extraction”与“generation”配置则分别针对关键词提取与生成任务提供定制化的数据字段。加载后,用户可直接访问文档、BIO标签、提取式关键词及生成式关键词等字段,便于快速构建训练与评估流程,推动关键词技术在学术文本分析中的创新应用。
背景与挑战
背景概述
在自然语言处理领域,关键词提取与生成技术对于高效处理海量科学文献至关重要。CiteULike180数据集由Olena Medelyan、Eibe Frank和Ian H. Witten等研究人员于2009年创建,其核心研究问题聚焦于从长篇英文科学文章中精准提取和生成关键短语。该数据集通过提供详尽的文档标注,包括BIO标签、显式关键短语和隐式关键短语,为关键词提取与生成任务奠定了坚实的基准。它不仅推动了自动关键词提取技术的发展,还为信息检索、文本摘要等应用领域提供了宝贵的资源,显著提升了相关研究的可复现性和评估标准。
当前挑战
CiteULike180数据集所针对的关键词提取与生成领域面临多重挑战。在领域问题层面,科学文献通常包含复杂的专业术语和冗长的句子结构,这使得准确识别显式关键短语和生成隐式关键短语变得尤为困难,模型需具备深度的语义理解能力。在构建过程中,数据集的创建者需处理大规模文档的精细标注,包括为每个单词分配BIO标签,这一过程耗时且易受主观判断影响,确保标注的一致性和准确性成为主要难点。此外,数据集的规模相对有限,仅包含182个测试样本,可能限制了其在多样化场景下的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,CiteULike180数据集为关键词提取与生成任务提供了标准化的评估基准。该数据集收录了180篇英文科学文献,每篇文档均标注了显式关键词和隐式关键词,并辅以BIO序列标注,使得研究者能够系统性地训练和验证各类关键词识别模型。其经典应用场景聚焦于评估序列标注模型在长文档中的关键词边界识别能力,以及生成模型在未见关键词预测上的表现,为算法比较提供了统一的数据基础。
解决学术问题
该数据集有效应对了关键词自动抽取研究中缺乏大规模、高质量标注语料的挑战。通过提供精确的BIO标注和显式/隐式关键词分类,它使得研究者能够深入探索文档内关键词的分布规律与语言特征。其意义在于推动了关键词提取从基于统计的方法向深度学习模型的演进,并为评估生成式关键词技术的合理性设立了实证标准,从而加速了自动摘要、信息检索等核心自然语言处理任务的发展。
实际应用
在实际应用中,CiteULike180数据集支撑了学术搜索引擎、数字图书馆系统的关键词自动标引功能。通过训练后的模型,系统能够自动为海量科学文献分配关键词,显著提升文献检索的准确性和覆盖范围。此外,该数据集还可用于构建个性化推荐系统,通过分析用户关注的关键词模式,实现精准的学术资源推送,从而优化科研信息服务的效率与体验。
数据集最近研究
最新研究方向
在自然语言处理领域,关键词提取与生成技术正经历着从传统方法向深度学习模型的深刻转型。CiteULike180数据集作为长文档科学文章的关键词标注基准,其最新研究聚焦于结合预训练语言模型与序列标注框架,以提升对复杂学术文本中显式与隐式关键概念的识别精度。前沿探索涉及多任务学习架构,将抽取式与生成式关键词预测统一于端到端系统中,同时关注跨领域迁移能力,以应对不同学科术语的多样性。这一方向与开放域知识发现、学术搜索引擎优化等热点应用紧密相连,其进展不仅推动了信息检索系统的智能化,也为学术文献的自动化摘要与知识图谱构建提供了核心支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作