five

ltg/nob-nno-eng-translation-pairs

收藏
Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/ltg/nob-nno-eng-translation-pairs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在用于挪威语(包括Bokmål和Nynorsk变体)与英语之间的高质量多句子机器翻译模型的微调。数据集主要来源于CCAligned,通过句子级别的语义相似性匹配和多重过滤(包括表面启发式、语义相似性检查和LLM评判)确保了数据的质量。此外,数据集还加入了来自NorSumm和Tatoeba的手动翻译数据。

This dataset is targeted for finetuning LLMs on multi-sentence machine translation between Norwegian (including Bokmål and Nynorsk variants) and English. The bulk of this dataset comes from CCAligned, with careful extraction and filtering of matching contiguous text segments based on sentence-to-sentence semantic similarity. Additional manual translations from NorSumm and Tatoeba are included.
提供机构:
ltg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作