DiscoFuse
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/DiscoFuse
下载链接
链接失效反馈官方服务:
资源简介:
DiscoFuse 是通过在两个语料库上应用基于规则的拆分方法创建的 -
体育文章从网络和维基百科爬取。详细见论文
数据集生成过程和评估的描述。
DiscoFuse 有两部分,分别来自体育文章和维基百科的 44,177,443 和 16,642,323 个示例。
对于每个部分,提供随机拆分来训练(98% 的示例)、开发(1%)和测试(1%)集。此外,由于原始数据分布高度倾斜(详见论文),因此还提供了每个部分的平衡版本。
提供机构:
OpenDataLab
创建时间:
2022-05-23



