five

fineweb-2-autocurate

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/bowang0911/fineweb-2-autocurate
下载链接
链接失效反馈
官方服务:
资源简介:
'fineweb-2-autocurate' 是一个自动精选的数据集子集,源自 'HuggingFaceFW/fineweb-2' 数据集。该数据集通过 AI 代理(Qwen3.5-35B-A3B)对网络文档进行迭代分析,识别质量问题并提出启发式修复方案(如正则表达式、字符串操作)。每个修复方案都通过训练一个小型语言模型并在维基百科评估集上测量 BPB 改进来验证,仅保留能提升 BPB 的修复方案。数据集包含多种语言子集,如捷克语(ces_Latn)、挪威语(nob_Latn)、荷兰语(nld_Latn)和瑞典语(swe_Latn),并提供了原始文档和保留文档的数量及比例。数据集特征包括文本(text)、ID(id)、URL(url)、转储信息(dump)、日期(date)、语言(language)和语言评分(language_score),适用于文本生成任务,采用 odc-by 许可协议。
创建时间:
2026-03-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作