five

110-PT-BN-KP

收藏
github2019-11-29 更新2024-05-31 收录
下载链接:
https://github.com/vitordouzi/AKE_Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含新闻故事的监督式主题关键词提取,使用了众包、轻量级过滤和共指规范化方法。

This dataset encompasses supervised topic keyword extraction from news stories, employing methods such as crowdsourcing, lightweight filtering, and coreference normalization.
创建时间:
2018-09-18
原始信息汇总

数据集概述

本数据集集合包含20个不同来源和领域的自动关键词提取标注数据集,涵盖多种语言和文档类型。以下是各数据集的详细信息:

数据集名称 语言 文档类型 领域 文档数量 黄金关键词数量(每文档) 每文档平均词数 缺失黄金关键词比例
110-PT-BN-KP PT 新闻 杂项 110 2610 (23.73) 304.00 2.5%
500N-KPCrowd-v1.1 EN 新闻 杂项 500 24459 (48.92) 408.33 13.5%
Inspec EN 摘要 计算机科学 2000 29230 (14.62) 128.20 37.7%
Krapivin2009 EN 论文 计算机科学 2304 14599 (6.34) 8040.74 15.3%
KWTweet EN 推文 杂项 7736 31759 (4.12) 19.79 7.87%
Nguyen2007 EN 论文 计算机科学 209 2369 (11.33) 5201.09 17.8%
PubMed EN 论文 计算机科学 500 7620 (15.24) 3992.78 60.2%
Schutz2008 EN 论文 计算机科学 1231 55013 (44.69) 3901.31 13.6%
SemEval2010 EN 论文 计算机科学 243 4002 (16.47) 8332.34 11.3%
SemEval2017 EN 段落 杂项 493 8969 (18.19) 178.22 0.0%
WikiNews FR 新闻 杂项 100 1177 (11.77) 293.52 5.0%
cacic ES 论文 计算机科学 888 4282 (4.82) 3985.84 2.2%
citeulike180 EN 论文 杂项 183 3370 (18.42) 4796.08 32.2%
fao30 EN 论文 农业 30 997 (33.23) 4777.70 41.7%
fao780 EN 论文 农业 779 6990 (8.97) 4971.79 36.1%
kdd EN 论文 计算机科学 755 3831 (5.07) 75.97 53.2%
pak2018 PL 摘要 杂项 50 232 (4.64) 97.36 64.7%
theses100 EN 硕士/博士论文 杂项 100 767 (7.67) 4728.86 47.6%
wicc ES 论文 计算机科学 1640 7498 (4.57) 1955.56 2.7%
wiki20 EN 研究报告 计算机科学 20 730 (36.50) 6177.65 51.8%
www EN 论文 计算机科学 1330 7711 (5.80) 84.08 55.0%

每个数据集的具体描述、引用信息和下载链接请参考原始README文件中的详细说明。

搜集汇总
数据集介绍
main_image_url
构建方式
110-PT-BN-KP数据集的构建是通过转录8个欧洲葡萄牙ALERT BN数据库中的电视广播新闻节目文本,并对转录文本进行人工检查以修正分段错误,进而创建黄金关键词。这些关键词是由一位标注者从文档内容中提取,以总结文档的主要内容。
特点
该数据集的特点在于,它包含110篇葡萄牙语新闻文档,覆盖了政治、体育、金融等多个领域。文档经过人工审查确保质量,且每个文档都附带有一组由标注者提取的黄金关键词,这些关键词能够准确概括文档内容。
使用方法
使用该数据集时,研究者可以依据提供的黄金关键词进行关键短语提取算法的训练和评估。数据集以.zip格式提供,研究者需要解压后获取文档和对应的黄金关键词,以便进行进一步的数据处理和分析。
背景与挑战
背景概述
110-PT-BN-KP数据集,创建于葡萄牙语新闻领域,旨在为自动关键短语提取研究提供基准。该数据集由ALERT BN数据库中的8个电视新闻节目转录文本构成,共计110篇文档,内容涵盖政治、体育、财经等多个领域。数据集的构建过程中,转录文本经过人工审核以修正切分错误,并进一步由标注员提取能够概括文档内容的关键短语。此数据集的研究背景与欧洲葡萄牙语新闻的自动处理紧密相关,对于推动该领域的研究具有重要意义。
当前挑战
在构建110-PT-BN-KP数据集的过程中,研究人员面临了诸多挑战。首先,电视新闻文本的口语化和非正式性使得关键短语的提取面临较大困难。其次,由于涉及多领域的新闻内容,领域知识的缺乏可能导致关键短语提取的准确性和全面性受限。此外,标注过程中的一致性保证也是一大挑战,确保不同标注员之间对于关键短语的认定保持一致,对于数据集的质量至关重要。
常用场景
经典使用场景
110-PT-BN-KP数据集是一份专注于电视新闻故事的自动关键短语提取的标注数据集。其经典的使用场景在于,研究者可以利用该数据集对自动关键短语提取算法进行训练和评估,以提高算法对新闻文本中关键信息的提取能力。
实际应用
在实际应用中,110-PT-BN-KP数据集可用于新闻聚合平台的自动标签生成、搜索引擎的关键词优化以及智能问答系统中的信息抽取等场景。
衍生相关工作
基于110-PT-BN-KP数据集,研究者们已经衍生出了一系列相关工作,如新闻文本的语义分析、情感分析以及跨语言关键短语提取等领域的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作