philippelaban/hlgd
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/philippelaban/hlgd
下载链接
链接失效反馈官方服务:
资源简介:
HLGD是一个二分类数据集,包含20,056个标记的新闻标题对,用于判断两个标题是否描述同一事件。数据集分为训练集、验证集和测试集(60-20-20)。数据集支持三个挑战任务:仅使用标题文本、使用标题和发布日期、使用标题、发布日期以及其他相关元数据进行预测。数据集由专家生成,语言为英语,包含10个新闻时间线,每个时间线包含80到300篇新闻文章。数据集的目标是促进展示多样化新闻报道的应用程序的开发。
HLGD is a binary classification dataset containing 20,056 labeled news headline pairs, designed to determine whether two headlines describe the same event. The dataset is split into training, validation, and test sets with a 60-20-20 split ratio. It supports three challenging tasks: prediction using only headline text, prediction using headlines and their publication dates, and prediction using headlines, publication dates, and other relevant metadata. The dataset is expert-generated, in English, and includes 10 news timelines, each containing 80 to 300 news articles. The goal of this dataset is to facilitate the development of applications that showcase diverse news coverage.
提供机构:
philippelaban
原始信息汇总
数据集概述
基本信息
- 数据集名称: Headline Grouping (HLGD)
- 语言: 英语
- 许可证: Apache 2.0
- 数据集大小: 10K<n<100K
- 多语言性: 单语种
- 源数据: 原始数据
- 任务类别: 文本分类
数据集结构
特征
timeline_id: 时间线索引,值为0到9headline_a,headline_b: 比较的两个新闻标题date_a,date_b: 新闻标题的发布日期,格式为YYYY-MM-DDurl_a,url_b: 新闻标题的原始URLlabel: 标签,1表示两个标题描述同一事件,0表示不同事件
数据分割
- 训练集: 15,492个样本
- 验证集: 2,069个样本
- 测试集: 2,495个样本
数据集创建
数据收集与规范化
- 数据来自NewsLens项目,选择了10个主题多样的新闻时间线,每个时间线包含80到300篇新闻文章。
标注过程
- 每个时间线由5名独立标注者进行标注,最终合并为一个全局组ID。
- 标注者包括论文作者和8名Upwork平台上的众包工作者,这些工作者是母语为英语且有校对或数据录入经验的人。
使用注意事项
数据集的社会影响
- 该数据集旨在促进展示多样新闻覆盖的应用程序。
数据集的偏见
- 标注者偏见:10名标注者参与了数据集的创建,他们的观点和视角影响了数据集的创建。
- 主题偏见:数据集包含来自不同主题(如太空、科技、政治等)的新闻标题。
- 来源选择偏见:数据集包含33个英语新闻来源,这些来源的选择影响了时间线和整体数据集的内容。
- 时间范围偏见:选择的时间线范围从2010年到2020年,这影响了新闻标题的语言和风格。
其他已知限制
- 对于新闻标题分组的任务,标注者间的一致性较高(0.814),但并非完美。某些标题分组的决定是主观的,取决于读者的解释。
附加信息
数据集创建者
- 数据集最初由Philippe Laban, Lucas Bandarkar和Marti Hearst在UC Berkeley创建。
许可证信息
- 数据集仅分发标题、URL和发布日期。用户可以通过查询URL获取额外的信息(如文章内容、作者等)。
引用信息
@inproceedings{Laban2021NewsHG, title={News Headline Grouping as a Challenging NLU Task}, author={Laban, Philippe and Bandarkar, Lucas and Hearst, Marti A}, booktitle={NAACL 2021}, publisher = {Association for Computational Linguistics}, year={2021} }



