Helsinki-NLP/tanzil
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/tanzil
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- found
language_creators:
- found
language:
- am
- ar
- az
- bg
- bn
- bs
- cs
- de
- dv
- en
- es
- fa
- fr
- ha
- hi
- id
- it
- ja
- ko
- ku
- ml
- ms
- nl
- 'no'
- pl
- pt
- ro
- ru
- sd
- so
- sq
- sv
- sw
- ta
- tg
- th
- tr
- tt
- ug
- ur
- uz
- zh
license:
- unknown
multilinguality:
- multilingual
size_categories:
- 100K<n<1M
source_datasets:
- original
task_categories:
- translation
task_ids: []
paperswithcode_id: null
pretty_name: tanzil
dataset_info:
- config_name: bg-en
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- bg
- en
splits:
- name: train
num_bytes: 34473016
num_examples: 135477
download_size: 9305292
dataset_size: 34473016
- config_name: bn-hi
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- bn
- hi
splits:
- name: train
num_bytes: 18869103
num_examples: 24942
download_size: 3542740
dataset_size: 18869103
- config_name: fa-sv
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- fa
- sv
splits:
- name: train
num_bytes: 29281634
num_examples: 68601
download_size: 8550826
dataset_size: 29281634
- config_name: ru-zh
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- ru
- zh
splits:
- name: train
num_bytes: 59736143
num_examples: 99779
download_size: 16214659
dataset_size: 59736143
- config_name: en-tr
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- en
- tr
splits:
- name: train
num_bytes: 255891913
num_examples: 1189967
download_size: 82954694
dataset_size: 255891913
---
# Dataset Card for tanzil
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** http://opus.nlpl.eu/Tanzil.php
- **Repository:** None
- **Paper:** http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf
- **Leaderboard:** [More Information Needed]
- **Point of Contact:** [More Information Needed]
### Dataset Summary
To load a language pair which isn't part of the config, all you need to do is specify the language code as pairs.
You can find the valid pairs in Homepage section of Dataset Description: http://opus.nlpl.eu/Tanzil.php
E.g.
`dataset = load_dataset("tanzil", lang1="en", lang2="ru")`
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
Here are some examples of questions and facts:
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
[More Information Needed]
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
[More Information Needed]
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
Thanks to [@abhishekkrthakur](https://github.com/abhishekkrthakur) for adding this dataset.
annotations_creators:
- 公开资源采集
language_creators:
- 公开资源采集
language:
- 阿姆哈拉语(Amharic,am)
- 阿拉伯语(Arabic,ar)
- 阿塞拜疆语(Azerbaijani,az)
- 保加利亚语(Bulgarian,bg)
- 孟加拉语(Bengali,bn)
- 波斯尼亚语(Bosnian,bs)
- 捷克语(Czech,cs)
- 德语(German,de)
- 迪维希语(Dhivehi,dv)
- 英语(English,en)
- 西班牙语(Spanish,es)
- 波斯语(Persian,fa)
- 法语(French,fr)
- 豪萨语(Hausa,ha)
- 印地语(Hindi,hi)
- 印度尼西亚语(Indonesian,id)
- 意大利语(Italian,it)
- 日语(Japanese,ja)
- 韩语(Korean,ko)
- 库尔德语(Kurdish,ku)
- 马拉雅拉姆语(Malayalam,ml)
- 马来语(Malay,ms)
- 荷兰语(Dutch,nl)
- 挪威语(Norwegian,no)
- 波兰语(Polish,pl)
- 葡萄牙语(Portuguese,pt)
- 罗马尼亚语(Romanian,ro)
- 俄语(Russian,ru)
- 信德语(Sindhi,sd)
- 索马里语(Somali,so)
- 阿尔巴尼亚语(Albanian,sq)
- 瑞典语(Swedish,sv)
- 斯瓦希里语(Swahili,sw)
- 泰米尔语(Tamil,ta)
- 塔吉克语(Tajik,tg)
- 泰语(Thai,th)
- 土耳其语(Turkish,tr)
- 鞑靼语(Tatar,tt)
- 维吾尔语(Uighur,ug)
- 乌尔都语(Urdu,ur)
- 乌兹别克语(Uzbek,uz)
- 中文(Chinese,zh)
license:
- 未知
multilinguality:
- 多语言
size_categories:
- 10万<样本量<100万
source_datasets:
- 原生数据集
task_categories:
- 机器翻译
task_ids: []
paperswithcode_id: null
pretty_name: Tanzil
dataset_info:
- config_name: bg-en(保加利亚语-英语)
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- bg(保加利亚语)
- en(英语)
splits:
- name: train
num_bytes: 34473016
num_examples: 135477
download_size: 9305292
dataset_size: 34473016
- config_name: bn-hi(孟加拉语-印地语)
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- bn(孟加拉语)
- hi(印地语)
splits:
- name: train
num_bytes: 18869103
num_examples: 24942
download_size: 3542740
dataset_size: 18869103
- config_name: fa-sv(波斯语-瑞典语)
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- fa(波斯语)
- sv(瑞典语)
splits:
- name: train
num_bytes: 29281634
num_examples: 68601
download_size: 8550826
dataset_size: 29281634
- config_name: ru-zh(俄语-中文)
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- ru(俄语)
- zh(中文)
splits:
- name: train
num_bytes: 59736143
num_examples: 99779
download_size: 16214659
dataset_size: 59736143
- config_name: en-tr(英语-土耳其语)
features:
- name: id
dtype: string
- name: translation
dtype:
translation:
languages:
- en(英语)
- tr(土耳其语)
splits:
- name: train
num_bytes: 255891913
num_examples: 1189967
download_size: 82954694
dataset_size: 255891913
# Tanzil 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集概览](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [语言覆盖](#languages)
- [数据集结构](#dataset-structure)
- [数据样例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注信息](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献声明](#contributions)
## 数据集描述
- **主页:** http://opus.nlpl.eu/Tanzil.php
- **代码仓库:** 无
- **相关论文:** http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf
- **排行榜:** [需补充更多信息]
- **联系方式:** [需补充更多信息]
### 数据集概览
若需加载未包含在预设配置中的语言对,仅需指定由语言代码组成的语言对即可。可参考数据集描述的主页部分(http://opus.nlpl.eu/Tanzil.php)获取有效语言对组合。示例如下:
`dataset = load_dataset("tanzil", lang1="en", lang2="ru")`
### 支持任务与排行榜
[需补充更多信息]
### 语言覆盖
[需补充更多信息]
## 数据集结构
### 数据样例
以下为部分问题与事实样例:
### 数据字段
[需补充更多信息]
### 数据划分
[需补充更多信息]
## 数据集构建
### 构建初衷
[需补充更多信息]
### 源数据
[需补充更多信息]
#### 初始数据收集与标准化
[需补充更多信息]
#### 源语言数据生产者是谁?
[需补充更多信息]
### 标注信息
[需补充更多信息]
#### 标注流程
[需补充更多信息]
#### 标注者是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差讨论
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献声明
感谢 [@abhishekkrthakur](https://github.com/abhishekkrthakur) 贡献本数据集。
提供机构:
Helsinki-NLP
原始信息汇总
数据集卡片 for tanzil
数据集描述
数据集摘要
该数据集包含多种语言对的翻译数据,支持的语言包括但不限于:
- 阿姆哈拉语 (am)
- 阿拉伯语 (ar)
- 阿塞拜疆语 (az)
- 保加利亚语 (bg)
- 孟加拉语 (bn)
- 波斯尼亚语 (bs)
- 捷克语 (cs)
- 德语 (de)
- 迪维希语 (dv)
- 英语 (en)
- 西班牙语 (es)
- 波斯语 (fa)
- 法语 (fr)
- 豪萨语 (ha)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 意大利语 (it)
- 日语 (ja)
- 韩语 (ko)
- 库尔德语 (ku)
- 马拉雅拉姆语 (ml)
- 马来语 (ms)
- 荷兰语 (nl)
- 挪威语 (no)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 信德语 (sd)
- 索马里语 (so)
- 阿尔巴尼亚语 (sq)
- 瑞典语 (sv)
- 斯瓦希里语 (sw)
- 泰米尔语 (ta)
- 塔吉克语 (tg)
- 泰语 (th)
- 土耳其语 (tr)
- 塔塔尔语 (tt)
- 维吾尔语 (ug)
- 乌尔都语 (ur)
- 乌兹别克语 (uz)
- 中文 (zh)
支持的任务和排行榜
[更多信息需要]
语言
[更多信息需要]
数据集结构
数据实例
[更多信息需要]
数据字段
每个配置包含以下字段:
id: 字符串类型,表示数据的唯一标识。translation: 翻译字段,包含两种语言的翻译数据。
数据分割
每个配置包含一个训练集分割,具体信息如下:
-
bg-en
- 训练集:34,473,016 字节,135,477 个样本
- 下载大小:9,305,292 字节
- 数据集大小:34,473,016 字节
-
bn-hi
- 训练集:18,869,103 字节,24,942 个样本
- 下载大小:3,542,740 字节
- 数据集大小:18,869,103 字节
-
fa-sv
- 训练集:29,281,634 字节,68,601 个样本
- 下载大小:8,550,826 字节
- 数据集大小:29,281,634 字节
-
ru-zh
- 训练集:59,736,143 字节,99,779 个样本
- 下载大小:16,214,659 字节
- 数据集大小:59,736,143 字节
-
en-tr
- 训练集:255,891,913 字节,1,189,967 个样本
- 下载大小:82,954,694 字节
- 数据集大小:255,891,913 字节
数据集创建
策划理由
[更多信息需要]
源数据
[更多信息需要]
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
[更多信息需要]
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
感谢 @abhishekkrthakur 添加此数据集。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



