newscrawl2024-en-backtranslated-is

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/quickmt/newscrawl2024-en-backtranslated-is

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从英语(en)翻译成冰岛语(is)的数据集，用于训练翻译模型从冰岛语(is)翻译到英语(en)。数据集包含了文本对（源语言为英语，目标语言为冰岛语）和分数（sco），可用于训练和评估翻译系统的性能。

This is a dataset for translating from English (en) to Icelandic (is), which is designed to train translation models for translating text from Icelandic (is) into English (en). The dataset comprises text pairs with English as the source language and Icelandic as the target language, along with scores (sco), and can be utilized to train and evaluate the performance of translation systems.

创建时间：

2025-11-22

原始信息汇总

数据集概述

基本信息

数据集名称: NewsCrawl 2023 en Translated into is
任务类别: 翻译
支持语言: 冰岛语(is)、英语(en)

数据特征

文本字段:
- is (字符串类型)
- en (字符串类型)
- sco (浮点数类型)

数据规模

训练集样本数量: 35,092,299
训练集数据大小: 11,440,178,663字节
下载大小: 8,034,641,902字节

数据来源

原始数据: NewsCrawl-en-2024 (https://data.statmt.org/news-crawl/en/news.2024.en.shuffled.deduped.gz)
翻译模型: quickmt/quickmt-en-is (beam size 4)

用途说明

专门用于训练从冰岛语(is)到英语(en)的翻译模型

搜集汇总

数据集介绍

构建方式

在机器翻译领域，高质量双语语料库的构建对提升模型性能具有关键意义。该数据集基于NewsCrawl-en-2024英文新闻语料，通过quickmt/quickmt-en-is神经机器翻译模型进行自动转译，采用束搜索算法（beam size=4）生成冰岛语译文，最终形成包含3500万条句对的平行语料。原始文本经过去重和乱序处理，确保训练数据的多样性和纯净度。

使用方法

研究者可将本数据集直接应用于神经机器翻译模型的训练与评估，特别适用于冰岛语至英语的翻译任务。通过HuggingFace平台可便捷下载预处理完成的TSV格式文件，利用sco字段进行译文质量过滤，建议结合BLEU等自动评估指标验证模型效果。该资源亦适用于多语言预训练模型的跨语言迁移学习研究。

背景与挑战

背景概述

随着神经机器翻译技术的快速发展，高质量双语语料库成为提升翻译模型性能的关键支撑。NewsCrawl2024-en-backtranslated-is数据集由研究机构基于2024年英语新闻爬取数据构建，通过先进翻译模型实现英语至冰岛语的自动转译。该资源专注于解决低资源语言对机器翻译的瓶颈问题，为冰岛语-英语双向翻译任务提供重要训练基础，对推动北欧语言技术生态发展具有显著意义。

当前挑战

构建过程面临双重挑战：在领域问题层面，冰岛语作为形态复杂的低资源语言，其语法结构与英语差异显著，需解决长距离依赖和词形变化的精准映射问题；在技术实施层面，反向翻译策略依赖单一模型可能引入误差传播，且新闻语料包含大量命名实体与时事术语，要求翻译系统具备领域自适应能力。此外，原始数据去重与质量过滤机制需平衡语料规模与语义保真度。

常用场景

经典使用场景

在机器翻译研究领域，该数据集作为高质量双语语料库，主要用于训练和评估冰岛语到英语的神经机器翻译模型。通过回译技术生成的平行文本，能够有效提升翻译系统在低资源语言对上的表现，为跨语言信息处理提供关键训练基础。

解决学术问题

该数据集显著缓解了低资源语言机器翻译面临的语料稀缺问题。通过构建大规模冰岛语-英语平行语料，解决了传统方法在语言资源不平衡情境下的性能瓶颈，为小语种自然语言处理研究提供了可复现的基准数据支撑。

实际应用

在实际应用层面，该数据集支撑的翻译系统已应用于冰岛新闻媒体的跨语言内容分发，助力国际信息传播。同时为政府机构、教育组织的多语言文档处理提供技术基础，有效促进冰岛与英语世界的文化交流与知识共享。

数据集最近研究