five

Bretagne/fineweb-2_raw_breton

收藏
Hugging Face2025-04-15 更新2025-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Bretagne/fineweb-2_raw_breton
下载链接
链接失效反馈
官方服务:
资源简介:
fineweb-2数据集是于2024年12月推出的,包含两种分割方式的布列塔尼语数据:bre_Latn_removed和bre_Latn。数据集由CommonCrawl的文件中提取的文本构成,经过语言分类、特定语言的过滤器筛选和MinHash去重处理。作者提供了数据集的原始版本,以便用户可以根据自己的需求进行过滤和去重。

The fineweb-2 dataset, introduced in December 2024, contains two splits in Breton: bre_Latn_removed and bre_Latn. The dataset is composed of texts extracted from CommonCrawl files, which have been processed through language classification, language-specific filtering, and MinHash deduplication. The authors have provided the raw version of the dataset for users to apply their own filtering and deduplication methods.
提供机构:
Bretagne
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作