finetranslations-et
收藏Hugging Face2026-01-10 更新2026-01-11 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/finetranslations-et
下载链接
链接失效反馈官方服务:
资源简介:
FineTranslations-et数据集是一个用于翻译和文本生成任务的数据集,包含爱沙尼亚语和英语的文本数据。数据集提供了丰富的特征,如翻译文本、原始文本块、原始完整文本、原始语言、语言评分、词数统计、质量评分等。数据集规模在1M到10M之间,适用于大规模的NLP任务。
提供机构:
TartuNLP
创建时间:
2026-01-10
原始信息汇总
FineTranslations-et 数据集概述
数据集基本信息
- 数据集名称: FineTranslations-et
- 发布者/维护者: tartuNLP
- 来源: 该数据集是 HuggingFaceFW/finetranslations 的爱沙尼亚语子集,为便于访问而重新上传。
- 许可协议: Open Data Commons Attribution License (ODC-By) v1.0。使用本数据集还需遵守 CommonCrawl 的使用条款。
- 任务类别: 翻译、文本生成
- 语言: 爱沙尼亚语 (et)、英语 (en)
数据集规模与结构
- 数据量级: 1M < n < 10M(百万级)
- 训练集样本数: 10,041,349 条
- 训练集大小: 约 170.85 GB
- 下载大小: 约 102.26 GB
- 数据格式: 默认配置包含一个“train”分割,数据文件路径为
data/train-*。
数据特征(Features)
数据集包含以下字段:
id: 样本标识符(字符串类型)translated_text: 翻译后的文本(字符串类型)translated_chunks: 翻译后的文本块列表(字符串列表)og_chunks: 原始文本块列表(字符串列表)og_full_text: 原始完整文本(字符串类型)og_language: 原始文本语言(字符串类型)og_language_score: 原始语言识别置信度(浮点类型)og_token_count: 原始文本的词元数量(整型)og_quality_score: 原始文本质量分数(浮点类型)early_stop: 翻译过程是否提前终止(布尔类型)url: 原始文本来源 URL(字符串类型)warc_path: 原始数据在 WARC 文件中的路径(字符串类型)minhash_cluster_size: MinHash 聚类大小(整型)translated_token_count: 翻译文本的词元数量(整型)edu_score_raw: 原始教育适用性分数(浮点类型)edu_score: 教育适用性分数(整型)
引用信息
如需在学术工作中使用此数据集,请引用:
@misc{penedo2026finetranslations, title={FineTranslations}, author={Guilherme Penedo and Hynek Kydl{\i}{v{c}}ek and Amir Hossein Kargaran and Leandro von Werra}, year={2026}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceFW/finetranslations}} }
搜集汇总
数据集介绍

构建方式
在机器翻译领域,高质量的双语平行语料库是推动模型性能提升的关键资源。FineTranslations-et数据集的构建依托于大规模网络爬取技术,从CommonCrawl等公开网络资源中系统性地采集原始文本。通过先进的自动检测与过滤流程,识别出爱沙尼亚语(et)的源文本,并运用神经机器翻译模型将其精准地转化为英语(en)译文。构建过程中还集成了细致的质量评估机制,例如语言识别置信度评分和内容质量分数,确保了语料在语言准确性与内容可靠性方面达到较高标准。
特点
该数据集的核心特征在于其规模与精细的标注信息。它包含了超过一千万条爱沙尼亚语至英语的翻译对,属于百万至千万级别的大型语料库。每条数据不仅提供完整的原文与译文,还以分块形式呈现,便于进行句子或段落级别的对齐分析。数据集附带了丰富的元数据,包括原文语言概率、原始质量评分、教育内容评分以及去重聚类信息,这些维度为研究者在数据筛选、质量控制和特定领域分析上提供了强大的支持。其结构设计兼顾了机器翻译与文本生成任务的多样性需求。
使用方法
对于研究人员与开发者而言,该数据集可直接用于训练或微调爱沙尼亚语-英语方向的机器翻译模型。使用者可以通过Hugging Face数据集库便捷加载,利用其‘train’分割进行模型开发。丰富的特征字段允许进行灵活的数据预处理,例如根据‘og_quality_score’或‘edu_score’过滤高质量或教育相关语料,亦或利用‘minhash_cluster_size’进行去重分析。在合规使用方面,用户需遵循ODC-By开源协议以及CommonCrawl的使用条款,并在相关研究中引用提供的文献信息。
背景与挑战
背景概述
FineTranslations-et数据集是FineTranslations项目下的爱沙尼亚语子集,由Guilherme Penedo、Hynek Kydlíček、Amir Hossein Kargaran和Leandro von Werra等研究人员于2026年创建并发布。该数据集专注于机器翻译与文本生成任务,核心研究问题在于通过大规模、高质量的平行语料,提升低资源语言如爱沙尼亚语的翻译模型性能。其构建基于CommonCrawl网络爬取数据,并经过精细的清洗与对齐处理,为自然语言处理领域提供了宝贵的双语资源,对促进跨语言信息交流与语言技术公平性具有显著影响力。
当前挑战
FineTranslations-et数据集旨在解决低资源语言机器翻译的领域挑战,包括爱沙尼亚语与英语间翻译的语义准确性与文化适配性问题。在构建过程中,研究人员面临数据质量控制的复杂性,例如从CommonCrawl原始文本中过滤噪声、确保翻译对齐的可靠性,以及处理语言变体与领域多样性带来的标注困难。此外,数据规模的庞大性(超过1000万条示例)对存储、处理与分发提出了技术挑战,需平衡效率与质量以支持下游模型训练。
常用场景
经典使用场景
在机器翻译研究领域,FineTranslations-et数据集作为爱沙尼亚语与英语之间的平行语料库,其经典使用场景聚焦于训练和评估神经机器翻译模型。该数据集通过提供高质量的双语对齐文本,支持研究者开发能够精准处理低资源语言翻译任务的算法,尤其在跨语言信息检索和自动文档翻译等场景中展现出重要价值。其丰富的元数据如语言评分和质量指标,进一步助力模型在复杂语境下的性能优化。
解决学术问题
该数据集有效解决了自然语言处理中低资源语言翻译的学术挑战。爱沙尼亚语作为资源相对匮乏的语言,长期以来缺乏大规模、高质量的平行语料,限制了相关翻译模型的进展。FineTranslations-et通过整合经过筛选和评估的双语文本,为研究者提供了可靠的训练基础,促进了跨语言表示学习和迁移学习方法的探索,从而推动低资源语言在全球化信息交流中的技术平等。
衍生相关工作
基于FineTranslations-et数据集,学术界衍生出多项经典研究工作,主要集中在低资源机器翻译模型的创新上。例如,研究者利用该数据训练了基于Transformer架构的专用翻译系统,并在爱沙尼亚语翻译任务中实现了显著的性能提升。此外,该数据集还支持了多语言预训练模型的微调实验,促进了如mBART或XLM-R等模型在特定语言对上的适应性研究,为后续的跨语言自然语言处理任务奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



