five

Discovery Dataset

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Discovery_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Discovery 数据集由相邻的句子对 (s1,s2) 组成,话语标记 (y) 出现在 s2 的开头。它们是从 depcc 网络语料库中提取的。 标记预测可用于训练句子编码器。话语标记可以被认为是各种语义任务的噪声标签,例如蕴涵(y = 因此)、主观性分析(y = 个人)或情感分析(y = 悲伤)、相似性(y = 相似)、典型性(y =好奇)... 该数据集的特殊性在于标记的多样性,因为之前使用的数据仅使用了约 10 个不平衡类别。数据集的作者提供: 174 个话语标记的列表 具有 174 万对数据集的基础版本(每个标记 10k 个示例) 拥有 340 万双的 Big 版本 具有 174 万对的硬版本,其中连接词无法使用 fastText 线性模型预测
提供机构:
OpenDataLab
创建时间:
2022-06-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Discovery 数据集由相邻句子对构成,其中第二个句子开头包含话语标记,这些数据从 depcc 网络语料库中提取,用于训练句子编码器。该数据集提供基础版、大版和硬版三个版本,覆盖174个话语标记,具有标记多样性特点,可应用于蕴涵、情感分析等多种语义任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作