five

philippelaban/hlgd

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/philippelaban/hlgd
下载链接
链接失效反馈
官方服务:
资源简介:
HLGD是一个二分类数据集,包含20,056个标记的新闻标题对,用于判断两个标题是否描述同一事件。数据集分为训练集、验证集和测试集(60-20-20)。数据集支持三个挑战任务:仅使用标题文本、使用标题和发布日期、使用标题、发布日期以及其他相关元数据进行预测。数据集由专家生成,语言为英语,包含10个新闻时间线,每个时间线包含80到300篇新闻文章。数据集的目标是促进展示多样化新闻报道的应用程序的开发。

HLGD is a binary classification dataset containing 20,056 labeled news headline pairs, designed to determine whether two headlines describe the same event. The dataset is split into training, validation, and test sets with a 60-20-20 split ratio. It supports three challenging tasks: prediction using only headline text, prediction using headlines and their publication dates, and prediction using headlines, publication dates, and other relevant metadata. The dataset is expert-generated, in English, and includes 10 news timelines, each containing 80 to 300 news articles. The goal of this dataset is to facilitate the development of applications that showcase diverse news coverage.
提供机构:
philippelaban
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Headline Grouping (HLGD)
  • 语言: 英语
  • 许可证: Apache 2.0
  • 数据集大小: 10K<n<100K
  • 多语言性: 单语种
  • 源数据: 原始数据
  • 任务类别: 文本分类

数据集结构

特征

  • timeline_id: 时间线索引,值为0到9
  • headline_a, headline_b: 比较的两个新闻标题
  • date_a, date_b: 新闻标题的发布日期,格式为YYYY-MM-DD
  • url_a, url_b: 新闻标题的原始URL
  • label: 标签,1表示两个标题描述同一事件,0表示不同事件

数据分割

  • 训练集: 15,492个样本
  • 验证集: 2,069个样本
  • 测试集: 2,495个样本

数据集创建

数据收集与规范化

  • 数据来自NewsLens项目,选择了10个主题多样的新闻时间线,每个时间线包含80到300篇新闻文章。

标注过程

  • 每个时间线由5名独立标注者进行标注,最终合并为一个全局组ID。
  • 标注者包括论文作者和8名Upwork平台上的众包工作者,这些工作者是母语为英语且有校对或数据录入经验的人。

使用注意事项

数据集的社会影响

  • 该数据集旨在促进展示多样新闻覆盖的应用程序。

数据集的偏见

  • 标注者偏见:10名标注者参与了数据集的创建,他们的观点和视角影响了数据集的创建。
  • 主题偏见:数据集包含来自不同主题(如太空、科技、政治等)的新闻标题。
  • 来源选择偏见:数据集包含33个英语新闻来源,这些来源的选择影响了时间线和整体数据集的内容。
  • 时间范围偏见:选择的时间线范围从2010年到2020年,这影响了新闻标题的语言和风格。

其他已知限制

  • 对于新闻标题分组的任务,标注者间的一致性较高(0.814),但并非完美。某些标题分组的决定是主观的,取决于读者的解释。

附加信息

数据集创建者

  • 数据集最初由Philippe Laban, Lucas Bandarkar和Marti Hearst在UC Berkeley创建。

许可证信息

  • 数据集仅分发标题、URL和发布日期。用户可以通过查询URL获取额外的信息(如文章内容、作者等)。

引用信息

@inproceedings{Laban2021NewsHG, title={News Headline Grouping as a Challenging NLU Task}, author={Laban, Philippe and Bandarkar, Lucas and Hearst, Marti A}, booktitle={NAACL 2021}, publisher = {Association for Computational Linguistics}, year={2021} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作