arielogg/anki_globalvoices_en_fr
收藏Anki-Global Voices English-French Translation Dataset
描述
Anki-Global Voices English-French Translation Dataset 是一个包含超过50万个翻译对的全面集合,结合了 Anki English to French 数据集和 Global Voices English to French 数据集。这个独特的数据集提供了广泛的句子,适用于训练和评估机器翻译模型,涵盖非正式和正式语言环境。
语言
该数据集包括英语(ISO 639-1: EN)和法语(ISO 639-1: FR)的句子对。
数据集结构
数据实例
每个数据实例包含一个英语句子和其对应的法语翻译。例如:
json { "source": "He is a good boy.", "target": "Cest un bon garçon." }
数据字段
source: 英语句子。target: 对应的法语翻译。
数据分割
数据集分为训练集、验证集和测试集。分布如下(示例数字):
- 训练集: 439,000 对
- 验证集: 54,900 对
- 测试集: 54,900 对
数据集创建
策划理由
该数据集旨在通过提供丰富的语言变体和表达,涵盖日常语言和正式语境,帮助开发机器翻译模型。
源数据
初始数据收集和规范化
数据集结合了两个来源:
- Anki English to French Dataset: 由提交到 Tatoeba 项目的精选翻译对组成,主要是短句和非正式语言。
- Global Voices English to French Dataset: 源自 Global Voices 网站上的新闻和文化文章,具有更正式、复杂的语言。
在合并 Anki 数据集之前,大约有 21,000 对从 Global Voices 数据集中移除,因为存在严重错位。样本已经过洗牌。
注释
数据集包含翻译,但没有额外的注释。
注释过程
Anki 数据集中的翻译是社区贡献的,而 Global Voices 数据集中的翻译是由专业翻译和记者完成的。
个人和敏感信息
数据集不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
该数据集可以帮助提高机器翻译系统的准确性,促进不同语言使用者之间的沟通。
偏见讨论
数据集涵盖了非正式和正式的语言环境,提供了平衡的语言范围。然而,源数据集的偏见可能存在。
其他已知限制
数据集仅关注英语-法语翻译,可能不适用于其他语言对或文化背景。
附加信息
数据集策展人
由 Ariel Guerra-Adames 策展,该数据集将 Anki 和 Global Voices 数据集结合成一个全面的机器翻译资源。
许可信息
参见 LICENSE




