finetranslations-et

Name: finetranslations-et
Creator: TartuNLP
Published: 2026-01-10 19:36:26
License: 暂无描述

Hugging Face2026-01-10 更新2026-01-11 收录

下载链接：

https://huggingface.co/datasets/tartuNLP/finetranslations-et

下载链接

链接失效反馈

官方服务：

资源简介：

FineTranslations-et数据集是一个用于翻译和文本生成任务的数据集，包含爱沙尼亚语和英语的文本数据。数据集提供了丰富的特征，如翻译文本、原始文本块、原始完整文本、原始语言、语言评分、词数统计、质量评分等。数据集规模在1M到10M之间，适用于大规模的NLP任务。

提供机构：

TartuNLP

创建时间：

2026-01-10

原始信息汇总

FineTranslations-et 数据集概述

数据集基本信息

数据集名称: FineTranslations-et
发布者/维护者: tartuNLP
来源: 该数据集是 HuggingFaceFW/finetranslations 的爱沙尼亚语子集，为便于访问而重新上传。
许可协议: Open Data Commons Attribution License (ODC-By) v1.0。使用本数据集还需遵守 CommonCrawl 的使用条款。
任务类别: 翻译、文本生成
语言: 爱沙尼亚语 (et)、英语 (en)

数据集规模与结构

数据量级: 1M < n < 10M（百万级）
训练集样本数: 10,041,349 条
训练集大小: 约 170.85 GB
下载大小: 约 102.26 GB
数据格式: 默认配置包含一个“train”分割，数据文件路径为 data/train-*。

数据特征（Features）

数据集包含以下字段：

id: 样本标识符（字符串类型）
translated_text: 翻译后的文本（字符串类型）
translated_chunks: 翻译后的文本块列表（字符串列表）
og_chunks: 原始文本块列表（字符串列表）
og_full_text: 原始完整文本（字符串类型）
og_language: 原始文本语言（字符串类型）
og_language_score: 原始语言识别置信度（浮点类型）
og_token_count: 原始文本的词元数量（整型）
og_quality_score: 原始文本质量分数（浮点类型）
early_stop: 翻译过程是否提前终止（布尔类型）
url: 原始文本来源 URL（字符串类型）
warc_path: 原始数据在 WARC 文件中的路径（字符串类型）
minhash_cluster_size: MinHash 聚类大小（整型）
translated_token_count: 翻译文本的词元数量（整型）
edu_score_raw: 原始教育适用性分数（浮点类型）
edu_score: 教育适用性分数（整型）

引用信息

如需在学术工作中使用此数据集，请引用：

@misc{penedo2026finetranslations, title={FineTranslations}, author={Guilherme Penedo and Hynek Kydl{\i}{v{c}}ek and Amir Hossein Kargaran and Leandro von Werra}, year={2026}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceFW/finetranslations}} }

搜集汇总

数据集介绍

构建方式

在机器翻译领域，高质量的双语平行语料库是推动模型性能提升的关键资源。FineTranslations-et数据集的构建依托于大规模网络爬取技术，从CommonCrawl等公开网络资源中系统性地采集原始文本。通过先进的自动检测与过滤流程，识别出爱沙尼亚语（et）的源文本，并运用神经机器翻译模型将其精准地转化为英语（en）译文。构建过程中还集成了细致的质量评估机制，例如语言识别置信度评分和内容质量分数，确保了语料在语言准确性与内容可靠性方面达到较高标准。

特点

该数据集的核心特征在于其规模与精细的标注信息。它包含了超过一千万条爱沙尼亚语至英语的翻译对，属于百万至千万级别的大型语料库。每条数据不仅提供完整的原文与译文，还以分块形式呈现，便于进行句子或段落级别的对齐分析。数据集附带了丰富的元数据，包括原文语言概率、原始质量评分、教育内容评分以及去重聚类信息，这些维度为研究者在数据筛选、质量控制和特定领域分析上提供了强大的支持。其结构设计兼顾了机器翻译与文本生成任务的多样性需求。

使用方法

对于研究人员与开发者而言，该数据集可直接用于训练或微调爱沙尼亚语-英语方向的机器翻译模型。使用者可以通过Hugging Face数据集库便捷加载，利用其‘train’分割进行模型开发。丰富的特征字段允许进行灵活的数据预处理，例如根据‘og_quality_score’或‘edu_score’过滤高质量或教育相关语料，亦或利用‘minhash_cluster_size’进行去重分析。在合规使用方面，用户需遵循ODC-By开源协议以及CommonCrawl的使用条款，并在相关研究中引用提供的文献信息。

背景与挑战

背景概述

FineTranslations-et数据集是FineTranslations项目下的爱沙尼亚语子集，由Guilherme Penedo、Hynek Kydlíček、Amir Hossein Kargaran和Leandro von Werra等研究人员于2026年创建并发布。该数据集专注于机器翻译与文本生成任务，核心研究问题在于通过大规模、高质量的平行语料，提升低资源语言如爱沙尼亚语的翻译模型性能。其构建基于CommonCrawl网络爬取数据，并经过精细的清洗与对齐处理，为自然语言处理领域提供了宝贵的双语资源，对促进跨语言信息交流与语言技术公平性具有显著影响力。

当前挑战

FineTranslations-et数据集旨在解决低资源语言机器翻译的领域挑战，包括爱沙尼亚语与英语间翻译的语义准确性与文化适配性问题。在构建过程中，研究人员面临数据质量控制的复杂性，例如从CommonCrawl原始文本中过滤噪声、确保翻译对齐的可靠性，以及处理语言变体与领域多样性带来的标注困难。此外，数据规模的庞大性（超过1000万条示例）对存储、处理与分发提出了技术挑战，需平衡效率与质量以支持下游模型训练。

常用场景

经典使用场景

在机器翻译研究领域，FineTranslations-et数据集作为爱沙尼亚语与英语之间的平行语料库，其经典使用场景聚焦于训练和评估神经机器翻译模型。该数据集通过提供高质量的双语对齐文本，支持研究者开发能够精准处理低资源语言翻译任务的算法，尤其在跨语言信息检索和自动文档翻译等场景中展现出重要价值。其丰富的元数据如语言评分和质量指标，进一步助力模型在复杂语境下的性能优化。

解决学术问题

该数据集有效解决了自然语言处理中低资源语言翻译的学术挑战。爱沙尼亚语作为资源相对匮乏的语言，长期以来缺乏大规模、高质量的平行语料，限制了相关翻译模型的进展。FineTranslations-et通过整合经过筛选和评估的双语文本，为研究者提供了可靠的训练基础，促进了跨语言表示学习和迁移学习方法的探索，从而推动低资源语言在全球化信息交流中的技术平等。

衍生相关工作

基于FineTranslations-et数据集，学术界衍生出多项经典研究工作，主要集中在低资源机器翻译模型的创新上。例如，研究者利用该数据训练了基于Transformer架构的专用翻译系统，并在爱沙尼亚语翻译任务中实现了显著的性能提升。此外，该数据集还支持了多语言预训练模型的微调实验，促进了如mBART或XLM-R等模型在特定语言对上的适应性研究，为后续的跨语言自然语言处理任务奠定了数据基础。

以上内容由遇见数据集搜集并总结生成