five

finetranslations-edu

收藏
Hugging Face2026-01-10 更新2026-01-11 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceFW/finetranslations-edu
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过1万亿个英语和500多种语言的平行文本标记。它是通过使用Gemma3 27B翻译来自FineWeb2的数据而获得的。该数据集旨在提高翻译能力,特别是对于资源较少的语言,也可以用于仅英语的模型训练。数据集经过教育分类器筛选,仅包含基于英语翻译的前10%得分数据。
提供机构:
HuggingFaceFW
创建时间:
2026-01-08
原始信息汇总

FineTranslations-Edu 数据集概述

数据集基本信息

  • 数据集名称: FineTranslations-Edu
  • 数据集地址: https://huggingface.co/datasets/HuggingFaceFW/finetranslations-edu
  • 许可证: Open Data Commons Attribution License (ODC-By) v1.0
  • 任务类别: 文本生成、翻译
  • 数据规模: 大于1万亿词元
  • 语言: 涵盖500多种语言

数据集描述

FineTranslations-Edu 是 FineTranslations 数据集的教育版本,包含超过1万亿词元的英语与500多种语言的平行文本。该数据集通过使用 Gemma3 27B 模型将来自 FineWeb2 数据集的数据翻译成英语而获得。此版本仅包含基于教育分类器对英文翻译评分最高的前10%数据,且不提供数据分割。

数据集结构

数据实例

数据以JSON格式存储,每个实例包含以下关键字段:

  • translated_text: 拼接后的英文翻译文本内容。
  • translated_chunks: 分割成块的英文翻译列表。
  • og_chunks: 源语言原始文本的分块列表(与 translated_chunks 一一对应)。
  • og_full_text: 源语言的完整原始文本。
  • og_language: 原始文本的语言-文字代码(例如 fra_Latn)。
  • og_language_score: 原始文本的语言预测分数。
  • og_token_count: 原始文本的词元计数。
  • og_quality_score: 原始文本的质量分数(如果可用,否则为-1)。
  • early_stop: 翻译是否提前停止的布尔标志。
  • id: 文档的唯一标识符。
  • url: 原始文档的URL。
  • warc_path: 原始文档在CommonCrawl中的存储路径。
  • minhash_cluster_size: MinHash聚类大小。
  • translated_token_count: 翻译文本的词元计数。
  • edu_score_raw: 原始教育分数。
  • edu_score: 教育分数。

数据子集

该Edu版本仅提供一个 default 子集,数据文件位于 data/*

数据集创建

数据来源

数据源自 FineWeb2 数据集,一个涵盖上千种语言的大规模预训练数据集。创建过程中,仅纳入了宗教内容或维基百科页面比例低于0.5的语言子集(约500种语言),并对每种语言处理了最多500亿词元。

处理流程

  1. 数据获取: 从 FineWeb2 中筛选符合条件的语言和数据。
  2. 大规模翻译: 使用 Gemma3 27B 模型进行翻译。采用了严格的提示词工程,包括内容分类、格式保留和文档分块策略,以解决毒性内容、格式不一致和重复循环等问题。
  3. 后处理: 移除模型标记的内容、清理标记并确保块边界的一致性。
  4. 教育过滤: 使用专门训练的分类器筛选出评分最高的前10%内容,构成此Edu版本。

动机与用途

主要目的是提升翻译能力,特别是改善从英语到低资源语言的翻译。同时,生成的英文数据包含不同国家和文化的相关信息,也可用于仅英语的模型训练。

使用方式

数据集可通过以下方式加载:

  • 使用 datatrove:通过 ParquetReader 读取数据。
  • 使用 huggingface_hub:通过 snapshot_download 下载数据。
  • 使用 datasets:通过 load_dataset 函数加载(使用 streaming=True 可流式获取样本)。

附加信息

  • 主页与代码库: https://huggingface.co/datasets/HuggingFaceFW/finetranslations
  • 讨论区: https://huggingface.co/datasets/HuggingFaceFW/finetranslations/discussion
  • 基础数据集: https://huggingface.co/datasets/HuggingFaceFW/finetranslations
  • 源数据集: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
  • 翻译模型: https://huggingface.co/google/gemma-3-27b-it
搜集汇总
数据集介绍
main_image_url
构建方式
在构建FineTranslations-Edu数据集的过程中,研究团队以FineWeb2多语言预训练数据集为源数据,精心筛选了约500种语言,确保每种语言子集中宗教与维基百科内容比例低于0.5,并限制每种语言最多处理500亿个词元。随后,利用Gemma3 27B模型进行大规模翻译,通过datatrove库部署合成数据流水线,采用滑动窗口策略将文档分块处理,并设计严格的提示词以保持原文格式一致性与内容纯净度。翻译完成后,经过后处理移除模型标记的不良内容,并应用专门训练的教育分类器筛选出得分最高的前10%数据,最终形成这一高质量平行语料库。
使用方法
使用FineTranslations-Edu数据集时,研究人员可通过多种技术路径灵活获取数据。利用datatrove库的ParquetReader能够以流式方式读取指定数量的文档,并结合过滤与写入管道进行定制化处理。通过huggingface_hub的snapshot_download函数可直接下载整个数据集到本地目录。若使用datasets库,调用load_dataset函数并设置streaming=True参数即可按需加载数据流,支持大规模分布式训练与实时分析。这些方法均兼容该数据集的Parquet格式存储,便于集成到现有的自然语言处理工作流中,用于机器翻译模型微调、多语言预训练或跨语言知识迁移等任务。
背景与挑战
背景概述
FineTranslations-Edu数据集由HuggingFace研究团队于2024年构建,旨在应对多语言机器翻译领域长期存在的资源不平衡问题。该数据集基于FineWeb2多语言预训练语料,利用Gemma3 27B模型对500余种语言进行规模化英译转换,形成超过1万亿标记的平行文本库。其核心研究价值在于通过合成数据生成技术,为低资源语言提供高质量翻译对,突破传统双语语料依赖人工标注的局限,显著提升英语到其他语言方向的翻译性能,并为跨文化知识迁移提供新的数据基础。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决低资源语言翻译质量不足的核心难题,特别是非拉丁文字语言与英语间的语义对齐、文化特定表达转换,以及翻译模型在长文本格式保持上的稳定性问题。构建过程中,团队需克服大规模多语言数据处理的技术壁垒,包括处理宗教与维基百科内容占比过高的语料筛选、翻译模型在低资源语言上的重复循环与格式失真现象,以及针对合成文本特性重新设计教育内容分类器的适配性挑战,确保最终数据在语言多样性与内容质量间取得平衡。
常用场景
经典使用场景
在机器翻译领域,大规模平行语料库是提升模型性能的关键资源。FineTranslations-Edu数据集通过将500多种语言的原始文本翻译为英语,构建了超过1万亿标记的平行文本,为多语言翻译模型的训练与优化提供了丰富的数据基础。该数据集特别适用于训练英语到其他语言的翻译模型,弥补了现有模型在低资源语言翻译能力上的不足,同时其经过教育分类器筛选的版本确保了文本内容的学术适宜性,为高质量翻译任务提供了可靠支持。
解决学术问题
该数据集有效应对了多语言机器翻译研究中低资源语言数据稀缺的挑战。通过利用Gemma3 27B模型对FineWeb2数据集进行大规模翻译,它生成了涵盖广泛语言对的平行语料,为提升英语到非英语语言的翻译质量提供了数据支撑。这一资源不仅促进了翻译模型在语言覆盖范围上的扩展,还通过教育内容筛选机制增强了数据的可靠性与适用性,为跨语言自然语言处理研究提供了重要的实验基础。
实际应用
在实际应用中,FineTranslations-Edu数据集可被广泛用于构建和优化多语言翻译系统,特别是在教育、文化传播和跨语言信息检索等领域。例如,教育机构可以利用该数据集训练定制化的翻译工具,以支持多语言教学材料的生成;企业则可将其集成到全球化产品中,实现精准的本地化内容翻译。此外,数据集中蕴含的文化特定信息有助于开发更具语境感知能力的翻译模型,提升跨语言交流的准确性与自然度。
数据集最近研究
最新研究方向
在机器翻译与多语言自然语言处理领域,FineTranslations-Edu数据集以其涵盖500余种语言、超过1万亿标记的平行文本规模,为前沿研究提供了关键资源。当前研究聚焦于利用此类大规模合成数据提升低资源语言的翻译质量,特别是针对英语到其他语言的翻译能力,这直接回应了当前多语言人工智能模型在语言覆盖与翻译平衡性方面的挑战。数据集通过Gemma3 27B模型生成并经过教育内容筛选,其高质量平行语料被广泛应用于跨语言预训练、翻译模型微调以及文化适应性研究,推动了多语言模型在全球化应用中的性能突破,同时也为语言资源稀缺地区的数字包容性提供了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作