ayymen/Pontoon-Translations
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ayymen/Pontoon-Translations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Mozilla各种项目的字符串及其翻译,涵盖了200多种语言。源字符串为英文。数据集适用于机器翻译和语言识别任务。数据由众包生成,并受Mozilla公共许可证2.0的约束。README还提到在加载数据集时需要适当处理缺失值。
该数据集包含来自Mozilla各种项目的字符串及其翻译,涵盖了200多种语言。源字符串为英文。数据集适用于机器翻译和语言识别任务。数据由众包生成,并受Mozilla公共许可证2.0的约束。README还提到在加载数据集时需要适当处理缺失值。
提供机构:
ayymen
原始信息汇总
数据集卡片 for Pontoon Translations
数据集概述
Pontoon Translations 数据集包含来自 Mozilla 项目的各种字符串,以及它们在 Mozilla 的 Pontoon 本地化平台上的超过 200 种语言的翻译。源字符串为英文。
数据集详情
数据集描述
- 语言(NLP): 多种语言
- 许可证: Mozilla Public License 2.0
- 任务类别: 翻译、文本到文本生成
- 数据集名称: Pontoon Translations
- 注释创建者: 众包
数据集结构
数据集包含多个配置,每个配置对应一个特定的语言对和相应的数据文件。以下是部分配置示例:
config_name: en-ht,data_files: en-ht.tsvconfig_name: en-ab,data_files: en-ab.tsvconfig_name: en-cs,data_files: en-cs.tsv- ...
config_name: en-zh-TW,data_files: en-zh-TW.tsvconfig_name: en-sq,data_files: en-sq.tsv
数据集创建
数据收集和处理
- 删除包含空元素或缺失元素的句子对。
- 删除相同的句子对。
- 删除英文字符串中不包含任何字母的行。
- 去除前导和尾随空白。
- 去重行。
数据源生产者
Pontoon 用户。
使用
直接使用
适用于机器翻译和语言识别任务。
超出范围使用
请注意数据集的限制和潜在偏差。
偏差、风险和限制
推荐
用户应了解数据集的风险、偏差和技术限制。
引用 [可选]
BibTeX:
[更多信息需补充]
APA:
[更多信息需补充]



