nb-asr-mt-filtered
收藏Hugging Face2026-05-25 更新2026-05-26 收录
下载链接:
https://huggingface.co/datasets/NbAiLab/nb-asr-mt-filtered
下载链接
链接失效反馈官方服务:
资源简介:
nb-asr-mt-filtered 是一个为NB-ASR项目内部使用而生成的机器翻译清单数据集,目前仍处于积极开发阶段。该数据集基于翻译腔(translationese)处理流程构建,采用反向使用合成数据的核心构建规则:将语言X的母语文本文本翻译成合成语言Y,生成的语料行用作Y到X的训练数据,因此监督目标始终是母语文本,而源端可能包含翻译腔伪影。该数据集是过滤后的变体,应用了保守的多语言双语文本嵌入完整性过滤器,以移除严重的源-目标不匹配情况,同时保持广泛的覆盖范围。数据生成过程涉及四种模型家族(如google/translategemma-4b-it、Qwen/Qwen3.6-35B-A3B-FP8等)生成翻译路线,并使用不同的模型进行回译。数据分割基于配置和源块ID确定,采用95%训练集、2.5%验证集和2.5%测试集的固定比例。每行记录保留了模型ID、版本、验证元数据、使用元数据、时间元数据、母语原始文本、枢轴翻译文本和回译文本。与基础产品nb-asr-mt相比,nb-asr-mt-filtered额外应用了保守的多语言嵌入完整性过滤器,以移除明显的幻觉、截断伪影、解析错误和错误语言失败。还有一个更严格的变体nb-asr-mt-gold,在母语原文和回译文之间使用相同语言嵌入相似性检查,旨在获得高置信度的有用覆盖。数据集总规模为10,814,726行,包含12种语言对配置,涵盖英语(eng)、丹麦语(dan)、瑞典语(swe)和挪威语(nob)之间的双向翻译组合,例如eng-nob(1,811,476行)、nob-eng(593,810行)、swe-eng(590,793行)等。该数据集旨在用于机器翻译训练和翻译腔感知数据构建研究,在训练时,应使用source_text作为输入,target_text作为监督的母语目标。
nb-asr-mt-filtered is a machine translation list dataset generated for internal use within the NB-ASR project and is still under active development. The dataset is built based on a translationese processing pipeline, employing a core construction rule of reverse usage of synthetic data: translating native language texts from language X into synthetic language Y, with the generated corpus lines used as training data for Y to X translation. Thus, the supervised target is always the native text, while the source may contain translationese artifacts. This dataset is a filtered variant that applies a conservative multilingual bilingual text embedding integrity filter to remove severe source-target mismatches while maintaining broad coverage. The data generation process involves four model families (e.g., google/translategemma-4b-it, google/translategemma-12b-it, BSC-LT/salamandraTA-7b-instruct, Qwen/Qwen3.6-35B-A3B-FP8) generating translation routes on Olivia, with back-translation using different models. Data splitting is determined based on (configuration, source chunk ID) with a fixed ratio of 95% training set, 2.5% validation set, and 2.5% test set. Each row in the dataset retains model ID, version, validation metadata, usage metadata, temporal metadata, native original text, pivot translation text, and back-translation text. Compared to the base product nb-asr-mt (which only retains rows with successful forward translation, non-empty source/target texts, and passing conservative language ID guardrails), nb-asr-mt-filtered additionally applies a conservative multilingual embedding integrity filter to remove obvious hallucinations, truncation artifacts, parsing errors, and incorrect language failures. There is also a stricter variant, nb-asr-mt-gold, which uses same-language embedding similarity checks between native original and back-translation texts, aiming for high-confidence useful coverage rather than exact string equality. The total dataset size is 10,814,726 rows, containing 12 language pair configurations covering bidirectional translation combinations among English (eng), Danish (dan), Swedish (swe), and Norwegian (nob), such as eng-nob (1,811,476 rows), nob-eng (593,810 rows), swe-eng (590,793 rows), etc. The dataset is intended for machine translation training and translationese-aware data construction research. During training, source_text should be used as input and target_text as the supervised native target.
提供机构:
Nasjonalbiblioteket AI Lab
创建时间:
2026-05-25
搜集汇总
数据集介绍

构建方式
nb-asr-mt-filtered数据集的构建源于对合成翻译数据的逆向运用。其核心策略是:当源语言X的原生文本被机器翻译为合成语言Y后,所生成的平行语料被用作Y到X方向的训练数据,从而确保监督目标始终为原生文本,而源端可能残留翻译腔伪影。该数据集通过多模型翻译管道生成,共采用了四种模型族(如google/translategemma系列及Qwen等),并确保前向翻译与反向翻译使用不同的模型,以避免模型偏差。随后,经保守的多语言嵌入向量合理性过滤,剔除明显的幻觉、截断、解析错误及语言误判等低质样本,最终形成覆盖12个语言方向、逾千万行的过滤版翻译语料。
使用方法
该数据集专为机器翻译训练及翻译腔感知的数据构建研究而设计。使用时,可将source_text字段作为模型输入,target_text字段作为监督目标(即目标语言的原生文本)。数据以HuggingFace Datasets格式提供,用户可通过加载对应配置名称(如eng-nob或dan-swe)直接获取特定语言方向的子集。由于该数据集仍处于内部开发阶段,并需获取项目方的明确许可方能对外引用,建议研究者在应用中优先参考其元数据字段以理解每条样本的生成背景,从而适配翻译腔敏感的训练策略。
背景与挑战
背景概述
在机器翻译领域,高质量平行语料库的匮乏长期制约着斯堪的纳维亚语系等低资源语言的模型性能提升。nb-asr-mt-filtered数据集由挪威国家图书馆的Per Egil Kummervold与Thea Tollersrud于近期创建,依托NB-ASR项目,旨在通过反向使用合成翻译数据来构建大规模、多语向的翻译训练集。该数据集覆盖英语、丹麦语、瑞典语及书面挪威语间的十二个语言对,总计超过一千万条数据,其核心创新在于利用翻译腔(translationese)管线的逆向特性,将合成翻译的目标语作为监督信号,以母语文本为训练目标,从而缓解平行语料稀缺问题。这一设计不仅扩充了斯堪的纳维亚语言的机器翻译数据资源,也为翻译腔感知的数据构造方法提供了新的研究范式,对区域多语言自然语言处理具有重要推动作用。
当前挑战
nb-asr-mt-filtered数据集面对的核心挑战在于双重层面。领域层面,低资源斯堪的纳维亚语言对缺乏高质量手工标注平行语料,传统机器翻译模型易因数据稀疏而过拟合;同时,合成数据引入的翻译腔痕迹可能导致模型学习到不自然的语言表达,降低翻译流畅度与忠实度。构建层面,该数据集需解决多重技术难题:首先,为避免因翻译模型幻觉、截断错误或语言标识误判导致的强噪声,研究者采用保守的多语言嵌入向量一致性过滤来移除严重源-目标不匹配样本;其次,前向翻译与反向翻译需分配不同模型以降低偏差累积,确保数据多样性;最后,需在十亿级文本中通过确定性切分生成稳定的训练、验证与测试集,并保留完整的元数据以支持可复现研究,这使得质量控制与规模扩展之间需精细权衡。
常用场景
经典使用场景
nb-asr-mt-filtered数据集的核心使用场景在于机器翻译模型的训练与评估,尤其聚焦于斯堪的纳维亚语系内部的跨语言翻译任务。该数据集包含了英语与挪威语、瑞典语、丹麦语之间的十二种双向语言对配置,其构建遵循一种创新性的逆向合成数据范式:将语言X的原生文本翻译为合成语言Y后,将该样本作为Y至X方向的训练实例,从而确保监督目标始终为原生文本。这种设计有效缓解了传统翻译数据中因翻译腔引入的噪声,使得模型在训练过程中能够学习到更为自然的源语言表达。该数据集在分割上采用95%训练、2.5%验证与2.5%测试的确定性划分策略,为机器翻译研究提供了结构严谨、规模可观的基准资源。
解决学术问题
该数据集主要解决了机器翻译领域中合成数据质量难以保证的学术难题。传统合成翻译数据常因模型偏差、翻译腔或语义失真而导致源语言与目标语言之间存在实质性的语义错配,严重影响下游翻译模型的鲁棒性与泛化能力。nb-asr-mt-filtered通过引入多语言嵌入语义过滤器,以保守策略清除明显的幻觉生成、截断错误、解析失败及语言不匹配等问题,从而在保有广泛覆盖的基础上大幅提升了数据对的保真度。这一方法论的提出,为学术界探索翻译腔感知的数据构建技术提供了可行路径,推动了关于如何利用合成数据有效增强低资源语种翻译性能的深入讨论,具有重要的理论价值与实践启示意义。
实际应用
在实际应用层面,nb-asr-mt-filtered数据集的成果可被嵌入到面向北欧地区的多语言机器翻译系统中,服务于跨国政务交流、商业文档翻译、旅游信息传递及学术文献互译等场景。例如,在挪威、瑞典与丹麦之间频繁的跨语言通信中,基于该数据集训练的翻译模型能够生成更贴近原生表达的译文,显著提升用户体验和沟通效率。此外,该数据集还可用于训练语音翻译系统的文本后端组件,辅助将自动语音识别结果快速转换为目标语言,从而赋能即时翻译设备、多语言客服机器人及跨国企业协作平台等实际产品,展现出强大的落地转化潜力。
数据集最近研究
最新研究方向
nb-asr-mt-filtered数据集聚焦于斯堪的纳维亚语系(英语、丹麦语、瑞典语、挪威语)的低资源机器翻译与口音鲁棒性研究,其核心创新在于提出了一种“反向合成数据”构建范式——利用先进多语言大模型(如TranslateGemma、Qwen3.6)对原生文本进行跨模型对译与回译,巧妙地将翻译腔伪影转化为训练信号,并辅以嵌入一致性过滤机制剔除幻觉与错配样本。这一方法响应了近年来神经机器翻译领域对高保真合成数据与翻译腔建模的前沿探索,尤其在北欧多语种场景下,为缓解平行语料稀缺、提升模型对非标准输入(如ASR转录噪声)的容错能力提供了规模化解决方案。该数据集的发布,标志着从传统平行语料到翻译腔感知数据构建的范式跃迁,其过滤版本与金标版本的层次化设计,为评估数据质量与模型泛化性能的权衡关系树立了新基准。
以上内容由遇见数据集搜集并总结生成



