midas/kptimes
收藏Hugging Face2022-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/kptimes
下载链接
链接失效反馈官方服务:
资源简介:
KPTimes是一个大规模数据集,包含来自NY Times的279,923篇新闻文章和来自JPTimes的10,000篇新闻文章。该数据集由编辑标注的关键词组成,旨在为科学领域以外的领域训练神经网络模型进行关键词生成,并理解专家和非专家标注关键词的差异。数据集随机分为训练集(92.8%)、验证集(3.6%)和测试集(3.6%)。作者从NY Times收集了2006年至2017年的免费阅读文章URL,并从互联网档案馆获取了相应的HTML页面,清理了HTML标签并提取了文章的标题和主要内容。关键词从元数据字段*news_keywords*和*keywords*中获取。数据集中的文档是完整的新闻文章,适合开发从长文档中识别关键词的模型。
提供机构:
midas
原始信息汇总
KPTimes数据集概述
数据集描述
KPTimes是一个大规模的数据集,包含来自NY Times的279,923篇新闻文章和来自JPTimes的10,000篇文章。该数据集由专家编辑注释的关键短语组成,旨在为训练神经模型提供非科学领域的关键短语生成数据,并比较专家与非专家注释的关键短语差异。数据集中的关键短语平均长度为1.4个词,其中55%为抽象关键短语。
数据集结构
- 训练集:包含92.8%的数据。
- 验证集:包含3.6%的数据。
- 测试集:包含3.6%的数据。
数据集的划分旨在确保模型能够良好泛化,因此不仅包含来自NY Times的数据,还加入了来自JPTimes的数据。
数据集统计
- 总文档数:279,923篇(NY Times)+ 10,000篇(JPTimes)。
- 关键短语类型:
- 抽象关键短语:平均长度1.4词,55%为抽象关键短语。
- 提取关键短语:平均长度2.4词。
数据字段
- id:文档的唯一标识符。
- document:文档中的单词列表。
- doc_bio_tags:文档中每个单词的BIO标签,指示关键短语的起始和内部位置。
- extractive_keyphrases:文档中出现的关键短语列表。
- abstractive_keyphrase:文档中未出现的关键短语列表。
- other metadata:包括文档的发布日期、类别、标题、摘要和关键词等额外信息。
数据分割
- 训练集:259,923篇文档。
- 测试集:20,000篇文档。
- 验证集:10,000篇文档。



