Discovery Dataset
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Discovery_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Discovery 数据集由相邻的句子对 (s1,s2) 组成,话语标记 (y) 出现在 s2 的开头。它们是从 depcc 网络语料库中提取的。
标记预测可用于训练句子编码器。话语标记可以被认为是各种语义任务的噪声标签,例如蕴涵(y = 因此)、主观性分析(y = 个人)或情感分析(y = 悲伤)、相似性(y = 相似)、典型性(y =好奇)...
该数据集的特殊性在于标记的多样性,因为之前使用的数据仅使用了约 10 个不平衡类别。数据集的作者提供:
174 个话语标记的列表
具有 174 万对数据集的基础版本(每个标记 10k 个示例)
拥有 340 万双的 Big 版本
具有 174 万对的硬版本,其中连接词无法使用 fastText 线性模型预测
提供机构:
OpenDataLab
创建时间:
2022-06-23



