HLGD(Headline Grouping Dataset)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/HLGD
下载链接
链接失效反馈官方服务:
资源简介:
标题分组数据集是新闻标题对的二元分类数据集。
对于每对标题,二进制标签指示两个标题是否属于同一组(并描述相同的潜在事件),或者它们是否位于不同的组中。
该数据集总共包含 20k 个带注释的标题对,进一步分为训练、验证和测试部分。
The Title Grouping Dataset is a binary classification dataset for news headline pairs. For each headline pair, the binary label indicates whether the two headlines belong to the same group (and describe the same underlying event) or belong to different groups. This dataset contains a total of 20,000 annotated headline pairs, which are further divided into training, validation, and test splits.
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍

背景与挑战
背景概述
HLGD数据集是一个用于新闻标题对的二元分类数据集,旨在判断两个标题是否属于同一组并描述相同事件。该数据集包含2万条带注释的标题对,划分为训练、验证和测试部分,由加州大学伯克利分校于2021年发布,采用Apache 2.0许可证。
以上内容由遇见数据集搜集并总结生成



