110-PT-BN-KP

github2019-11-29 更新2024-05-31 收录

下载链接：

https://github.com/vitordouzi/AKE_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含新闻故事的监督式主题关键词提取，使用了众包、轻量级过滤和共指规范化方法。

This dataset encompasses supervised topic keyword extraction from news stories, employing methods such as crowdsourcing, lightweight filtering, and coreference normalization.

创建时间：

2018-09-18

原始信息汇总

数据集概述

本数据集集合包含20个不同来源和领域的自动关键词提取标注数据集，涵盖多种语言和文档类型。以下是各数据集的详细信息：

数据集名称	语言	文档类型	领域	文档数量	黄金关键词数量（每文档）	每文档平均词数	缺失黄金关键词比例
110-PT-BN-KP	PT	新闻	杂项	110	2610 (23.73)	304.00	2.5%
500N-KPCrowd-v1.1	EN	新闻	杂项	500	24459 (48.92)	408.33	13.5%
Inspec	EN	摘要	计算机科学	2000	29230 (14.62)	128.20	37.7%
Krapivin2009	EN	论文	计算机科学	2304	14599 (6.34)	8040.74	15.3%
KWTweet	EN	推文	杂项	7736	31759 (4.12)	19.79	7.87%
Nguyen2007	EN	论文	计算机科学	209	2369 (11.33)	5201.09	17.8%
PubMed	EN	论文	计算机科学	500	7620 (15.24)	3992.78	60.2%
Schutz2008	EN	论文	计算机科学	1231	55013 (44.69)	3901.31	13.6%
SemEval2010	EN	论文	计算机科学	243	4002 (16.47)	8332.34	11.3%
SemEval2017	EN	段落	杂项	493	8969 (18.19)	178.22	0.0%
WikiNews	FR	新闻	杂项	100	1177 (11.77)	293.52	5.0%
cacic	ES	论文	计算机科学	888	4282 (4.82)	3985.84	2.2%
citeulike180	EN	论文	杂项	183	3370 (18.42)	4796.08	32.2%
fao30	EN	论文	农业	30	997 (33.23)	4777.70	41.7%
fao780	EN	论文	农业	779	6990 (8.97)	4971.79	36.1%
kdd	EN	论文	计算机科学	755	3831 (5.07)	75.97	53.2%
pak2018	PL	摘要	杂项	50	232 (4.64)	97.36	64.7%
theses100	EN	硕士/博士论文	杂项	100	767 (7.67)	4728.86	47.6%
wicc	ES	论文	计算机科学	1640	7498 (4.57)	1955.56	2.7%
wiki20	EN	研究报告	计算机科学	20	730 (36.50)	6177.65	51.8%
www	EN	论文	计算机科学	1330	7711 (5.80)	84.08	55.0%

每个数据集的具体描述、引用信息和下载链接请参考原始README文件中的详细说明。

搜集汇总

数据集介绍

构建方式

110-PT-BN-KP数据集的构建是通过转录8个欧洲葡萄牙ALERT BN数据库中的电视广播新闻节目文本，并对转录文本进行人工检查以修正分段错误，进而创建黄金关键词。这些关键词是由一位标注者从文档内容中提取，以总结文档的主要内容。

特点

该数据集的特点在于，它包含110篇葡萄牙语新闻文档，覆盖了政治、体育、金融等多个领域。文档经过人工审查确保质量，且每个文档都附带有一组由标注者提取的黄金关键词，这些关键词能够准确概括文档内容。

使用方法

使用该数据集时，研究者可以依据提供的黄金关键词进行关键短语提取算法的训练和评估。数据集以.zip格式提供，研究者需要解压后获取文档和对应的黄金关键词，以便进行进一步的数据处理和分析。

背景与挑战

背景概述

110-PT-BN-KP数据集，创建于葡萄牙语新闻领域，旨在为自动关键短语提取研究提供基准。该数据集由ALERT BN数据库中的8个电视新闻节目转录文本构成，共计110篇文档，内容涵盖政治、体育、财经等多个领域。数据集的构建过程中，转录文本经过人工审核以修正切分错误，并进一步由标注员提取能够概括文档内容的关键短语。此数据集的研究背景与欧洲葡萄牙语新闻的自动处理紧密相关，对于推动该领域的研究具有重要意义。

当前挑战

在构建110-PT-BN-KP数据集的过程中，研究人员面临了诸多挑战。首先，电视新闻文本的口语化和非正式性使得关键短语的提取面临较大困难。其次，由于涉及多领域的新闻内容，领域知识的缺乏可能导致关键短语提取的准确性和全面性受限。此外，标注过程中的一致性保证也是一大挑战，确保不同标注员之间对于关键短语的认定保持一致，对于数据集的质量至关重要。

常用场景

经典使用场景

110-PT-BN-KP数据集是一份专注于电视新闻故事的自动关键短语提取的标注数据集。其经典的使用场景在于，研究者可以利用该数据集对自动关键短语提取算法进行训练和评估，以提高算法对新闻文本中关键信息的提取能力。

实际应用

在实际应用中，110-PT-BN-KP数据集可用于新闻聚合平台的自动标签生成、搜索引擎的关键词优化以及智能问答系统中的信息抽取等场景。

衍生相关工作

基于110-PT-BN-KP数据集，研究者们已经衍生出了一系列相关工作，如新闻文本的语义分析、情感分析以及跨语言关键短语提取等领域的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集