Discovery Dataset

Name: Discovery Dataset
Creator: OpenDataLab
Published: 2026-05-17 09:30:19
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Discovery_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Discovery 数据集由相邻的句子对 (s1,s2) 组成，话语标记 (y) 出现在 s2 的开头。它们是从 depcc 网络语料库中提取的。标记预测可用于训练句子编码器。话语标记可以被认为是各种语义任务的噪声标签，例如蕴涵（y = 因此）、主观性分析（y = 个人）或情感分析（y = 悲伤）、相似性（y = 相似）、典型性（y =好奇）... 该数据集的特殊性在于标记的多样性，因为之前使用的数据仅使用了约 10 个不平衡类别。数据集的作者提供： 174 个话语标记的列表具有 174 万对数据集的基础版本（每个标记 10k 个示例）拥有 340 万双的 Big 版本具有 174 万对的硬版本，其中连接词无法使用 fastText 线性模型预测

提供机构：

OpenDataLab

创建时间：

2022-06-23

搜集汇总

数据集介绍