five

Discovery Dataset

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Discovery_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Discovery 数据集由相邻的句子对 (s1,s2) 组成,话语标记 (y) 出现在 s2 的开头。它们是从 depcc 网络语料库中提取的。 标记预测可用于训练句子编码器。话语标记可以被认为是各种语义任务的噪声标签,例如蕴涵(y = 因此)、主观性分析(y = 个人)或情感分析(y = 悲伤)、相似性(y = 相似)、典型性(y =好奇)... 该数据集的特殊性在于标记的多样性,因为之前使用的数据仅使用了约 10 个不平衡类别。数据集的作者提供: 174 个话语标记的列表 具有 174 万对数据集的基础版本(每个标记 10k 个示例) 拥有 340 万双的 Big 版本 具有 174 万对的硬版本,其中连接词无法使用 fastText 线性模型预测
提供机构:
OpenDataLab
创建时间:
2022-06-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作