five

HLGD(Headline Grouping Dataset)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/HLGD
下载链接
链接失效反馈
官方服务:
资源简介:
标题分组数据集是新闻标题对的二元分类数据集。 对于每对标题,二进制标签指示两个标题是否属于同一组(并描述相同的潜在事件),或者它们是否位于不同的组中。 该数据集总共包含 20k 个带注释的标题对,进一步分为训练、验证和测试部分。

The Title Grouping Dataset is a binary classification dataset for news headline pairs. For each headline pair, the binary label indicates whether the two headlines belong to the same group (and describe the same underlying event) or belong to different groups. This dataset contains a total of 20,000 annotated headline pairs, which are further divided into training, validation, and test splits.
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
HLGD数据集是一个用于新闻标题对的二元分类数据集,旨在判断两个标题是否属于同一组并描述相同事件。该数据集包含2万条带注释的标题对,划分为训练、验证和测试部分,由加州大学伯克利分校于2021年发布,采用Apache 2.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作