five

ayymen/Pontoon-Translations

收藏
Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ayymen/Pontoon-Translations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Mozilla各种项目的字符串及其翻译,涵盖了200多种语言。源字符串为英文。数据集适用于机器翻译和语言识别任务。数据由众包生成,并受Mozilla公共许可证2.0的约束。README还提到在加载数据集时需要适当处理缺失值。

该数据集包含来自Mozilla各种项目的字符串及其翻译,涵盖了200多种语言。源字符串为英文。数据集适用于机器翻译和语言识别任务。数据由众包生成,并受Mozilla公共许可证2.0的约束。README还提到在加载数据集时需要适当处理缺失值。
提供机构:
ayymen
原始信息汇总

数据集卡片 for Pontoon Translations

数据集概述

Pontoon Translations 数据集包含来自 Mozilla 项目的各种字符串,以及它们在 Mozilla 的 Pontoon 本地化平台上的超过 200 种语言的翻译。源字符串为英文。

数据集详情

数据集描述

  • 语言(NLP): 多种语言
  • 许可证: Mozilla Public License 2.0
  • 任务类别: 翻译、文本到文本生成
  • 数据集名称: Pontoon Translations
  • 注释创建者: 众包

数据集结构

数据集包含多个配置,每个配置对应一个特定的语言对和相应的数据文件。以下是部分配置示例:

  • config_name: en-ht, data_files: en-ht.tsv
  • config_name: en-ab, data_files: en-ab.tsv
  • config_name: en-cs, data_files: en-cs.tsv
  • ...
  • config_name: en-zh-TW, data_files: en-zh-TW.tsv
  • config_name: en-sq, data_files: en-sq.tsv

数据集创建

数据收集和处理

  • 删除包含空元素或缺失元素的句子对。
  • 删除相同的句子对。
  • 删除英文字符串中不包含任何字母的行。
  • 去除前导和尾随空白。
  • 去重行。

数据源生产者

Pontoon 用户。

使用

直接使用

适用于机器翻译和语言识别任务。

超出范围使用

请注意数据集的限制和潜在偏差。

偏差、风险和限制

推荐

用户应了解数据集的风险、偏差和技术限制。

引用 [可选]

BibTeX:

[更多信息需补充]

APA:

[更多信息需补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作