midas/kptimes

Name: midas/kptimes
Creator: midas
Published: 2022-02-06 06:21:58
License: 暂无描述

Hugging Face2022-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/midas/kptimes

下载链接

链接失效反馈

官方服务：

资源简介：

KPTimes是一个大规模数据集，包含来自NY Times的279,923篇新闻文章和来自JPTimes的10,000篇新闻文章。该数据集由编辑标注的关键词组成，旨在为科学领域以外的领域训练神经网络模型进行关键词生成，并理解专家和非专家标注关键词的差异。数据集随机分为训练集（92.8%）、验证集（3.6%）和测试集（3.6%）。作者从NY Times收集了2006年至2017年的免费阅读文章URL，并从互联网档案馆获取了相应的HTML页面，清理了HTML标签并提取了文章的标题和主要内容。关键词从元数据字段*news_keywords*和*keywords*中获取。数据集中的文档是完整的新闻文章，适合开发从长文档中识别关键词的模型。

提供机构：

midas

原始信息汇总

KPTimes数据集概述

数据集描述

KPTimes是一个大规模的数据集，包含来自NY Times的279,923篇新闻文章和来自JPTimes的10,000篇文章。该数据集由专家编辑注释的关键短语组成，旨在为训练神经模型提供非科学领域的关键短语生成数据，并比较专家与非专家注释的关键短语差异。数据集中的关键短语平均长度为1.4个词，其中55%为抽象关键短语。

数据集结构

训练集：包含92.8%的数据。
验证集：包含3.6%的数据。
测试集：包含3.6%的数据。

数据集的划分旨在确保模型能够良好泛化，因此不仅包含来自NY Times的数据，还加入了来自JPTimes的数据。

数据集统计

总文档数：279,923篇（NY Times）+ 10,000篇（JPTimes）。
关键短语类型：
- 抽象关键短语：平均长度1.4词，55%为抽象关键短语。
- 提取关键短语：平均长度2.4词。

数据字段

id：文档的唯一标识符。
document：文档中的单词列表。
doc_bio_tags：文档中每个单词的BIO标签，指示关键短语的起始和内部位置。
extractive_keyphrases：文档中出现的关键短语列表。
abstractive_keyphrase：文档中未出现的关键短语列表。
other metadata：包括文档的发布日期、类别、标题、摘要和关键词等额外信息。

数据分割

训练集：259,923篇文档。
测试集：20,000篇文档。
验证集：10,000篇文档。

5,000+

优质数据集

54 个

任务类型

进入经典数据集