Napizia/Good-Sicilian-in-NLLB
收藏Hugging Face2025-08-16 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Napizia/Good-Sicilian-in-NLLB
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Good Sicilian in the NLLB,主要关注西西里语的翻译质量。数据集由Project Napizia提供,旨在帮助语言模型学习符合西西里文学传统的语言。数据集包含从NLLB数据集中筛选出的高质量西西里语翻译对,并通过Napizia的翻译模型进行评分。数据集还提供了50,000对最佳翻译对的CSV文件。数据集来源于Meta AI发布的元数据,并经过Allen AI的处理,最终由Napizia进行评分。数据集包含1,057,469对翻译对,主要用于英语到西西里语的翻译任务。
The dataset is named Good Sicilian in the NLLB and focuses on the quality of Sicilian translations. Provided by Project Napizia, it aims to help language models learn Good Sicilian, which aligns with the Sicilian literary tradition. The dataset includes high-quality Sicilian translation pairs selected from the NLLB dataset and scored using Napizias translation model. It also provides a CSV file containing 50,000 of the best translation pairs. The dataset originates from metadata released by Meta AI, processed by Allen AI, and finally scored by Napizia. It contains 1,057,469 translation pairs and is primarily used for English-to-Sicilian translation tasks.
提供机构:
Napizia
原始信息汇总
Good Sicilian in the NLLB
数据集概述
- 名称: Good Sicilian in the NLLB
- 任务类别: 翻译
- 语言: 英语、西西里语
- 数据规模: 100K<n<1M
- 许可证: ODC-BY
数据集详情
- 来源:
- 数据集是从Meta AI发布的bitext元数据中创建的子集。
- 原始数据包含148个以英语为中心和1465个非英语为中心的语言对的bitext。
- 数据集包含1,057,469对从OPUS集合中评分过的英语-西西里语翻译对。
数据集目的
- 目标: 识别NLLB数据集中“好的西西里语”翻译,以帮助NLP社区训练更好的西西里语语言模型。
- 评分方法:
- 使用Project Napizia的翻译模型对英语-西西里语翻译对进行评分。
- 评分基于Sockeye的评分器,计算目标子词序列是源子词序列翻译的负对数概率。
- 提供Napizia评分和Facebook评分,以方便研究人员和从业者使用。
数据集内容
- 数据格式: 提供一个包含50,000对最佳Napizia评分的制表符分隔的CSV电子表格。
许可证信息
- 许可证: 数据集在ODC-BY条款下发布,使用者还需遵守原始来源的相应使用条款和许可证。
参考文献
- A. Fan et al (2020). "Beyond English-Centric Multilingual Machine Translation."
- K. Hefferman et al (2022). "Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages."
- NLLB Team et al (2022). "No Language Left Behind: Scaling Human-Centered Machine Translation."
- H. Schwenk et al (2021). "CCMatrix: Mining Billions of High-Quality Parallel Sentences on the Web."
- J. Tiedemann (2012). "Parallel Data, Tools and Interfaces in OPUS."
- E. Wdowiak (2021). "Sicilian Translator: A Recipe for Low-Resource NMT."
- E. Wdowiak (2022). "A Recipe for Low-Resource NMT."



