philippelaban/hlgd|新闻事件分组数据集|文本分类数据集

hugging_face2024-01-18 更新2024-06-15 收录

新闻事件分组

文本分类

下载链接：

https://hf-mirror.com/datasets/philippelaban/hlgd

下载链接

链接失效反馈

资源简介：

HLGD是一个二分类数据集，包含20,056个标记的新闻标题对，用于判断两个标题是否描述同一事件。数据集分为训练集、验证集和测试集（60-20-20）。数据集支持三个挑战任务：仅使用标题文本、使用标题和发布日期、使用标题、发布日期以及其他相关元数据进行预测。数据集由专家生成，语言为英语，包含10个新闻时间线，每个时间线包含80到300篇新闻文章。数据集的目标是促进展示多样化新闻报道的应用程序的开发。

提供机构：

philippelaban

原始信息汇总

数据集概述

基本信息

数据集名称: Headline Grouping (HLGD)
语言: 英语
许可证: Apache 2.0
数据集大小: 10K<n<100K
多语言性: 单语种
源数据: 原始数据
任务类别: 文本分类

数据集结构

特征

timeline_id: 时间线索引，值为0到9
headline_a, headline_b: 比较的两个新闻标题
date_a, date_b: 新闻标题的发布日期，格式为YYYY-MM-DD
url_a, url_b: 新闻标题的原始URL
label: 标签，1表示两个标题描述同一事件，0表示不同事件

数据分割

训练集: 15,492个样本
验证集: 2,069个样本
测试集: 2,495个样本

数据集创建

数据收集与规范化

数据来自NewsLens项目，选择了10个主题多样的新闻时间线，每个时间线包含80到300篇新闻文章。

标注过程

每个时间线由5名独立标注者进行标注，最终合并为一个全局组ID。
标注者包括论文作者和8名Upwork平台上的众包工作者，这些工作者是母语为英语且有校对或数据录入经验的人。

使用注意事项

数据集的社会影响

该数据集旨在促进展示多样新闻覆盖的应用程序。

数据集的偏见

标注者偏见：10名标注者参与了数据集的创建，他们的观点和视角影响了数据集的创建。
主题偏见：数据集包含来自不同主题（如太空、科技、政治等）的新闻标题。
来源选择偏见：数据集包含33个英语新闻来源，这些来源的选择影响了时间线和整体数据集的内容。
时间范围偏见：选择的时间线范围从2010年到2020年，这影响了新闻标题的语言和风格。

其他已知限制

对于新闻标题分组的任务，标注者间的一致性较高（0.814），但并非完美。某些标题分组的决定是主观的，取决于读者的解释。

附加信息

数据集创建者

数据集最初由Philippe Laban, Lucas Bandarkar和Marti Hearst在UC Berkeley创建。

许可证信息

数据集仅分发标题、URL和发布日期。用户可以通过查询URL获取额外的信息（如文章内容、作者等）。

引用信息

@inproceedings{Laban2021NewsHG, title={News Headline Grouping as a Challenging NLU Task}, author={Laban, Philippe and Bandarkar, Lucas and Hearst, Marti A}, booktitle={NAACL 2021}, publisher = {Association for Computational Linguistics}, year={2021} }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

553个真实世界的半结构化访谈数据集

该数据集包含553个真实世界的半结构化访谈，每个访谈都与临床诊断结果配对，用于评估抑郁症、焦虑症和创伤后应激障碍等精神健康问题的早期诊断。数据集来自美国多个行为研究项目，参与者回答了五个关于日常生活、挑战性事件、应对策略、不愉快事件和积极经历的标准化问题。访谈被记录并转录，每个访谈的平均长度约为2,955个单词。该数据集旨在为自然语言处理模型提供真实且具有生态效度的基准，以评估其从自然语言中推断精神健康问题的能力。

arXiv 收录

WorldClim

WorldClim是一个全球气候数据集，提供了全球范围内的气候数据，包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等，适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录