five

DiscoFuse

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/DiscoFuse
下载链接
链接失效反馈
官方服务:
资源简介:
DiscoFuse 是通过在两个语料库上应用基于规则的拆分方法创建的 - 体育文章从网络和维基百科爬取。详细见论文 数据集生成过程和评估的描述。 DiscoFuse 有两部分,分别来自体育文章和维基百科的 44,177,443 和 16,642,323 个示例。 对于每个部分,提供随机拆分来训练(98% 的示例)、开发(1%)和测试(1%)集。此外,由于原始数据分布高度倾斜(详见论文),因此还提供了每个部分的平衡版本。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DiscoFuse是一个大规模数据集,专为话语级句子融合研究设计,包含来自体育文章和维基百科的两部分,总计超过6000万个示例。数据集提供随机拆分和平衡版本,由Google和特拉维夫大学于2019年发布,支持预训练和文本生成任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作