five

DiscoFuse

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/DiscoFuse
下载链接
链接失效反馈
官方服务:
资源简介:
DiscoFuse 是通过在两个语料库上应用基于规则的拆分方法创建的 - 体育文章从网络和维基百科爬取。详细见论文 数据集生成过程和评估的描述。 DiscoFuse 有两部分,分别来自体育文章和维基百科的 44,177,443 和 16,642,323 个示例。 对于每个部分,提供随机拆分来训练(98% 的示例)、开发(1%)和测试(1%)集。此外,由于原始数据分布高度倾斜(详见论文),因此还提供了每个部分的平衡版本。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作