CohereLabs/dolly-machine-translated-v2
收藏Hugging Face2026-04-24 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/CohereLabs/dolly-machine-translated-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: am
data_files:
- split: test
path: am/test.parquet
- config_name: ar
data_files:
- split: test
path: ar/test.parquet
- config_name: bg
data_files:
- split: test
path: bg/test.parquet
- config_name: bn
data_files:
- split: test
path: bn/test.parquet
- config_name: ca
data_files:
- split: test
path: ca/test.parquet
- config_name: cs
data_files:
- split: test
path: cs/test.parquet
- config_name: cy
data_files:
- split: test
path: cy/test.parquet
- config_name: da
data_files:
- split: test
path: da/test.parquet
- config_name: de
data_files:
- split: test
path: de/test.parquet
- config_name: el
data_files:
- split: test
path: el/test.parquet
- config_name: en
data_files:
- split: test
path: en/test.parquet
- config_name: es
data_files:
- split: test
path: es/test.parquet
- config_name: et
data_files:
- split: test
path: et/test.parquet
- config_name: eu
data_files:
- split: test
path: eu/test.parquet
- config_name: fa
data_files:
- split: test
path: fa/test.parquet
- config_name: fi
data_files:
- split: test
path: fi/test.parquet
- config_name: fr
data_files:
- split: test
path: fr/test.parquet
- config_name: ga
data_files:
- split: test
path: ga/test.parquet
- config_name: gl
data_files:
- split: test
path: gl/test.parquet
- config_name: gu
data_files:
- split: test
path: gu/test.parquet
- config_name: ha
data_files:
- split: test
path: ha/test.parquet
- config_name: he
data_files:
- split: test
path: he/test.parquet
- config_name: hi
data_files:
- split: test
path: hi/test.parquet
- config_name: hr
data_files:
- split: test
path: hr/test.parquet
- config_name: hu
data_files:
- split: test
path: hu/test.parquet
- config_name: id
data_files:
- split: test
path: id/test.parquet
- config_name: ig
data_files:
- split: test
path: ig/test.parquet
- config_name: it
data_files:
- split: test
path: it/test.parquet
- config_name: ja
data_files:
- split: test
path: ja/test.parquet
- config_name: jv
data_files:
- split: test
path: jv/test.parquet
- config_name: km
data_files:
- split: test
path: km/test.parquet
- config_name: ko
data_files:
- split: test
path: ko/test.parquet
- config_name: lo
data_files:
- split: test
path: lo/test.parquet
- config_name: lt
data_files:
- split: test
path: lt/test.parquet
- config_name: lv
data_files:
- split: test
path: lv/test.parquet
- config_name: mg
data_files:
- split: test
path: mg/test.parquet
- config_name: mr
data_files:
- split: test
path: mr/test.parquet
- config_name: ms
data_files:
- split: test
path: ms/test.parquet
- config_name: mt
data_files:
- split: test
path: mt/test.parquet
- config_name: my
data_files:
- split: test
path: my/test.parquet
- config_name: ne
data_files:
- split: test
path: ne/test.parquet
- config_name: nl
data_files:
- split: test
path: nl/test.parquet
- config_name: 'no'
data_files:
- split: test
path: no/test.parquet
- config_name: pa
data_files:
- split: test
path: pa/test.parquet
- config_name: pl
data_files:
- split: test
path: pl/test.parquet
- config_name: pt
data_files:
- split: test
path: pt/test.parquet
- config_name: ro
data_files:
- split: test
path: ro/test.parquet
- config_name: ru
data_files:
- split: test
path: ru/test.parquet
- config_name: sk
data_files:
- split: test
path: sk/test.parquet
- config_name: sl
data_files:
- split: test
path: sl/test.parquet
- config_name: sn
data_files:
- split: test
path: sn/test.parquet
- config_name: sr
data_files:
- split: test
path: sr/test.parquet
- config_name: sv
data_files:
- split: test
path: sv/test.parquet
- config_name: sw
data_files:
- split: test
path: sw/test.parquet
- config_name: ta
data_files:
- split: test
path: ta/test.parquet
- config_name: te
data_files:
- split: test
path: te/test.parquet
- config_name: th
data_files:
- split: test
path: th/test.parquet
- config_name: tl
data_files:
- split: test
path: tl/test.parquet
- config_name: tr
data_files:
- split: test
path: tr/test.parquet
- config_name: uk
data_files:
- split: test
path: uk/test.parquet
- config_name: ur
data_files:
- split: test
path: ur/test.parquet
- config_name: vi
data_files:
- split: test
path: vi/test.parquet
- config_name: wo
data_files:
- split: test
path: wo/test.parquet
- config_name: xh
data_files:
- split: test
path: xh/test.parquet
- config_name: yo
data_files:
- split: test
path: yo/test.parquet
- config_name: zh
data_files:
- split: test
path: zh/test.parquet
- config_name: zu
data_files:
- split: test
path: zu/test.parquet
---
# Dolly Machine Translated (v2)
## Dataset Description
**Dolly Machine Translated (v2)** is a multilingual evaluation-only release built from a curated subset of [Databricks Dolly 15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) prompts. It contains the original English prompts plus machine translations in 66 non-English languages, with the English source prompts included as the `en` config for reference.
Each language is provided as a separate **config** (subset). All language codes use **ISO 639-1** two-letter codes. Each row carries a stable `en_index` field, so rows in different languages can be aligned 1:1 by joining on `en_index`. This release is intended for multilingual testing, especially open-ended generation evaluation with an LLM judge, and is not intended as training data.
### Relationship to Aya Evaluation Suite
This dataset builds on `dolly_machine_translated` subset released in [CohereLabs/aya_evaluation_suite](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite). The earlier v1 release can still be browsed in the [subset viewer](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite/viewer/dolly_machine_translated).
Compared with that v1 release, this dataset:
- covers fewer languages overall: 67 configs here versus 101 languages (114 dialects) in Aya Evaluation Suite;
- uses a different language mix, including Croatian, Punjabi, Tagalog, and Wolof in this release;
- uses newer and stronger machine translation systems, including Command A Translate and DeepSeek V3;
- filters out prompts whose meaning depends on wordplay or puns that do not translate reliably across languages.
### Intended Use
This dataset is for evaluation and testing only. It is designed for multilingual prompt-based benchmarking, especially judge-based evaluation of open-ended model generations. It should not be used as supervised training data, instruction-tuning data, or a replacement for human evaluation.
### Decontamination
If Dolly data, close paraphrases of Dolly prompts, or prior translated Dolly releases were included anywhere in model pretraining or post-training, run data decontamination before reporting results on this dataset. Because these prompts are derived from Dolly, contamination can materially inflate apparent performance.
### Languages (67 configs)
| Code | Language | Code | Language | Code | Language |
|------|----------|------|----------|------|----------|
| am | Amharic | ar | Arabic | bg | Bulgarian |
| bn | Bengali | ca | Catalan | cs | Czech |
| cy | Welsh | da | Danish | de | German |
| el | Greek | en | English | es | Spanish |
| et | Estonian | eu | Basque | fa | Persian |
| fi | Finnish | fr | French | ga | Irish |
| gl | Galician | gu | Gujarati | ha | Hausa |
| he | Hebrew | hi | Hindi | hr | Croatian |
| hu | Hungarian | id | Indonesian | ig | Igbo |
| it | Italian | ja | Japanese | jv | Javanese |
| km | Khmer | ko | Korean | lo | Lao |
| lt | Lithuanian | lv | Latvian | mg | Malagasy |
| mr | Marathi | ms | Malay | mt | Maltese |
| my | Burmese | ne | Nepali | nl | Dutch |
| no | Norwegian | pa | Punjabi | pl | Polish |
| pt | Portuguese | ro | Romanian | ru | Russian |
| sk | Slovak | sl | Slovenian | sn | Shona |
| sr | Serbian | sv | Swedish | sw | Swahili |
| ta | Tamil | te | Telugu | th | Thai |
| tl | Tagalog | tr | Turkish | uk | Ukrainian |
| ur | Urdu | vi | Vietnamese | wo | Wolof |
| xh | Xhosa | yo | Yoruba | zh | Chinese |
| zu | Zulu | | | | |
### Data Fields
Each config has a single split, `test`. Each row contains:
| Field | Type | Description |
|-------|------|-------------|
| `prompt` | string | The Dolly prompt in the target language. For the `en` config, this is the original English prompt. |
| `english_prompt` | string | The original English prompt (equals `prompt` for the `en` config). |
| `en_index` | int | Stable index into the original English Dolly subset, shared across all languages. |
| `language` | string | ISO 639-1 code matching the config name. |
### Usage
```python
from datasets import load_dataset
# Load a single language (e.g. Spanish)
ds = load_dataset("CohereLabs/dolly-machine-translated-v2", "es", split="test")
print(ds[0])
# {'prompt': '¿Cuáles son 5 formas de comer manzanas?',
# 'english_prompt': 'What are 5 ways to eat apples?',
# 'en_index': 0,
# 'language': 'es'}
# Load the original English prompts
en = load_dataset("CohereLabs/dolly-machine-translated-v2", "en", split="test")
```
### Cross-lingual alignment
All configs are aligned by `en_index`: row `i` in any language corresponds to the same English source prompt. This makes it easy to build parallel comparisons across languages without re-joining external metadata:
```python
from datasets import load_dataset
en = load_dataset("CohereLabs/dolly-machine-translated-v2", "en", split="test")
es = load_dataset("CohereLabs/dolly-machine-translated-v2", "es", split="test")
# Both datasets are sorted by en_index, so positional indexing is sufficient.
assert en["en_index"] == es["en_index"]
```
### Source Attribution
- **Original prompts:** [`databricks/databricks-dolly-15k`](https://huggingface.co/datasets/databricks/databricks-dolly-15k) (a curated subset is used here).
- **Translations:** machine-translated into the listed languages.
- **Previous release:** v1 was published as the `dolly_machine_translated` subset of [`CohereLabs/aya_evaluation_suite`](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite) and can be browsed in the [`dolly_machine_translated` viewer](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite/viewer/dolly_machine_translated).
### License
The original Dolly prompts are released under CC BY-SA 3.0; please refer to the [`databricks/databricks-dolly-15k`](https://huggingface.co/datasets/databricks/databricks-dolly-15k) dataset card for the full terms. Translations released under the same license.
---
配置项:
- 配置名称:am
数据文件:
- 数据集拆分:test
文件路径:am/test.parquet
- 配置名称:ar
数据文件:
- 数据集拆分:test
文件路径:ar/test.parquet
- 配置名称:bg
数据文件:
- 数据集拆分:test
文件路径:bg/test.parquet
- 配置名称:bn
数据文件:
- 数据集拆分:test
文件路径:bn/test.parquet
- 配置名称:ca
数据文件:
- 数据集拆分:test
文件路径:ca/test.parquet
- 配置名称:cs
数据文件:
- 数据集拆分:test
文件路径:cs/test.parquet
- 配置名称:cy
数据文件:
- 数据集拆分:test
文件路径:cy/test.parquet
- 配置名称:da
数据文件:
- 数据集拆分:test
文件路径:da/test.parquet
- 配置名称:de
数据文件:
- 数据集拆分:test
文件路径:de/test.parquet
- 配置名称:el
数据文件:
- 数据集拆分:test
文件路径:el/test.parquet
- 配置名称:en
数据文件:
- 数据集拆分:test
文件路径:en/test.parquet
- 配置名称:es
数据文件:
- 数据集拆分:test
文件路径:es/test.parquet
- 配置名称:et
数据文件:
- 数据集拆分:test
文件路径:et/test.parquet
- 配置名称:eu
数据文件:
- 数据集拆分:test
文件路径:eu/test.parquet
- 配置名称:fa
数据文件:
- 数据集拆分:test
文件路径:fa/test.parquet
- 配置名称:fi
数据文件:
- 数据集拆分:test
文件路径:fi/test.parquet
- 配置名称:fr
数据文件:
- 数据集拆分:test
文件路径:fr/test.parquet
- 配置名称:ga
数据文件:
- 数据集拆分:test
文件路径:ga/test.parquet
- 配置名称:gl
数据文件:
- 数据集拆分:test
文件路径:gl/test.parquet
- 配置名称:gu
数据文件:
- 数据集拆分:test
文件路径:gu/test.parquet
- 配置名称:ha
数据文件:
- 数据集拆分:test
文件路径:ha/test.parquet
- 配置名称:he
数据文件:
- 数据集拆分:test
文件路径:he/test.parquet
- 配置名称:hi
数据文件:
- 数据集拆分:test
文件路径:hi/test.parquet
- 配置名称:hr
数据文件:
- 数据集拆分:test
文件路径:hr/test.parquet
- 配置名称:hu
数据文件:
- 数据集拆分:test
文件路径:hu/test.parquet
- 配置名称:id
数据文件:
- 数据集拆分:test
文件路径:id/test.parquet
- 配置名称:ig
数据文件:
- 数据集拆分:test
文件路径:ig/test.parquet
- 配置名称:it
数据文件:
- 数据集拆分:test
文件路径:it/test.parquet
- 配置名称:ja
数据文件:
- 数据集拆分:test
文件路径:ja/test.parquet
- 配置名称:jv
数据文件:
- 数据集拆分:test
文件路径:jv/test.parquet
- 配置名称:km
数据文件:
- 数据集拆分:test
文件路径:km/test.parquet
- 配置名称:ko
数据文件:
- 数据集拆分:test
文件路径:ko/test.parquet
- 配置名称:lo
数据文件:
- 数据集拆分:test
文件路径:lo/test.parquet
- 配置名称:lt
数据文件:
- 数据集拆分:test
文件路径:lt/test.parquet
- 配置名称:lv
数据文件:
- 数据集拆分:test
文件路径:lv/test.parquet
- 配置名称:mg
数据文件:
- 数据集拆分:test
文件路径:mg/test.parquet
- 配置名称:mr
数据文件:
- 数据集拆分:test
文件路径:mr/test.parquet
- 配置名称:ms
数据文件:
- 数据集拆分:test
文件路径:ms/test.parquet
- 配置名称:mt
数据文件:
- 数据集拆分:test
文件路径:mt/test.parquet
- 配置名称:my
数据文件:
- 数据集拆分:test
文件路径:my/test.parquet
- 配置名称:ne
数据文件:
- 数据集拆分:test
文件路径:ne/test.parquet
- 配置名称:nl
数据文件:
- 数据集拆分:test
文件路径:nl/test.parquet
- 配置名称:no
数据文件:
- 数据集拆分:test
文件路径:no/test.parquet
- 配置名称:pa
数据文件:
- 数据集拆分:test
文件路径:pa/test.parquet
- 配置名称:pl
数据文件:
- 数据集拆分:test
文件路径:pl/test.parquet
- 配置名称:pt
数据文件:
- 数据集拆分:test
文件路径:pt/test.parquet
- 配置名称:ro
数据文件:
- 数据集拆分:test
文件路径:ro/test.parquet
- 配置名称:ru
数据文件:
- 数据集拆分:test
文件路径:ru/test.parquet
- 配置名称:sk
数据文件:
- 数据集拆分:test
文件路径:sk/test.parquet
- 配置名称:sl
数据文件:
- 数据集拆分:test
文件路径:sl/test.parquet
- 配置名称:sn
数据文件:
- 数据集拆分:test
文件路径:sn/test.parquet
- 配置名称:sr
数据文件:
- 数据集拆分:test
文件路径:sr/test.parquet
- 配置名称:sv
数据文件:
- 数据集拆分:test
文件路径:sv/test.parquet
- 配置名称:sw
数据文件:
- 数据集拆分:test
文件路径:sw/test.parquet
- 配置名称:ta
数据文件:
- 数据集拆分:test
文件路径:ta/test.parquet
- 配置名称:te
数据文件:
- 数据集拆分:test
文件路径:te/test.parquet
- 配置名称:th
数据文件:
- 数据集拆分:test
文件路径:th/test.parquet
- 配置名称:tl
数据文件:
- 数据集拆分:test
文件路径:tl/test.parquet
- 配置名称:tr
数据文件:
- 数据集拆分:test
文件路径:tr/test.parquet
- 配置名称:uk
数据文件:
- 数据集拆分:test
文件路径:uk/test.parquet
- 配置名称:ur
数据文件:
- 数据集拆分:test
文件路径:ur/test.parquet
- 配置名称:vi
数据文件:
- 数据集拆分:test
文件路径:vi/test.parquet
- 配置名称:wo
数据文件:
- 数据集拆分:test
文件路径:wo/test.parquet
- 配置名称:xh
数据文件:
- 数据集拆分:test
文件路径:xh/test.parquet
- 配置名称:yo
数据文件:
- 数据集拆分:test
文件路径:yo/test.parquet
- 配置名称:zh
数据文件:
- 数据集拆分:test
文件路径:zh/test.parquet
- 配置名称:zu
数据文件:
- 数据集拆分:test
文件路径:zu/test.parquet
---
# Dolly机器翻译(v2)
## 数据集说明
**Dolly机器翻译(v2)** 是一个仅用于评估的多语言版本数据集,其数据源自[Databricks Dolly 15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k)提示词的精选子集。该数据集包含原始英文提示词,以及66种非英语语言的机器翻译结果,其中英文源提示词以`en`配置项的形式提供作为参考。
每种语言都作为独立的**配置(config)**(子集)提供。所有语言代码均采用**ISO 639-1**双字母语言代码规范。每一行数据都包含一个稳定的`en_index`字段,因此不同语言的行可以通过`en_index`进行一对一的对齐关联。本数据集仅用于多语言测试,尤其适用于结合大语言模型(LLM)评估器的开放式生成任务评测,不可用作训练数据。
### 与Aya评估套件的关联
本数据集基于[CohereLabs/aya_evaluation_suite](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite)中发布的`dolly_machine_translated`子集构建。早期的v1版本仍可在[子集查看器](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite/viewer/dolly_machine_translated)中浏览。
与v1版本相比,本数据集:
- 整体覆盖的语言更少:本数据集包含67个配置项,而Aya评估套件包含101种语言(114种方言);
- 采用了不同的语言组合,本版本新增了克罗地亚语、旁遮普语、他加禄语和沃洛夫语;
- 使用了更新且效果更优的机器翻译系统,包括Command A Translate和DeepSeek V3;
- 过滤掉了那些语义依赖文字游戏或双关、无法在不同语言间可靠翻译的提示词。
### 预期用途
本数据集仅用于评估与测试。其设计目标为多语言提示词基准测试,尤其适用于基于评估器的开放式模型生成结果评测。本数据集不可用作监督训练数据、指令微调数据,也不可替代人工评估。
### 数据去污染
如果模型预训练或后训练阶段已包含Dolly数据集、Dolly提示词的近似复述版本,或此前发布的Dolly翻译版本,请在基于本数据集报告结果前进行数据去污染处理。由于本数据集的提示词源自Dolly数据集,数据污染可能会人为虚高模型的表观性能。
### 语言(共67个配置项)
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|------|----------|------|----------|------|----------|
| am | 阿姆哈拉语 | ar | 阿拉伯语 | bg | 保加利亚语 |
| bn | 孟加拉语 | ca | 加泰罗尼亚语 | cs | 捷克语 |
| cy | 威尔士语 | da | 丹麦语 | de | 德语 |
| el | 希腊语 | en | 英语 | es | 西班牙语 |
| et | 爱沙尼亚语 | eu | 巴斯克语 | fa | 波斯语 |
| fi | 芬兰语 | fr | 法语 | ga | 爱尔兰语 |
| gl | 加利西亚语 | gu | 古吉拉特语 | ha | 豪萨语 |
| he | 希伯来语 | hi | 印地语 | hr | 克罗地亚语 |
| hu | 匈牙利语 | id | 印度尼西亚语 | ig | 伊博语 |
| it | 意大利语 | ja | 日语 | jv | 爪哇语 |
| km | 高棉语 | ko | 韩语 | lo | 老挝语 |
| lt | 立陶宛语 | lv | 拉脱维亚语 | mg | 马尔加什语 |
| mr | 马拉地语 | ms | 马来语 | mt | 马耳他语 |
| my | 缅甸语 | ne | 尼泊尔语 | nl | 荷兰语 |
| no | 挪威语 | pa | 旁遮普语 | pl | 波兰语 |
| pt | 葡萄牙语 | ro | 罗马尼亚语 | ru | 俄语 |
| sk | 斯洛伐克语 | sl | 斯洛文尼亚语 | sn | 绍纳语 |
| sr | 塞尔维亚语 | sv | 瑞典语 | sw | 斯瓦希里语 |
| ta | 泰米尔语 | te | 泰卢固语 | th | 泰语 |
| tl | 他加禄语 | tr | 土耳其语 | uk | 乌克兰语 |
| ur | 乌尔都语 | vi | 越南语 | wo | 沃洛夫语 |
| xh | 科萨语 | yo | 约鲁巴语 | zh | 中文 |
| zu | 祖鲁语 | | | | |
### 数据字段
每个配置项仅包含一个数据集拆分(split):`test`。每一行数据包含以下字段:
| 字段名 | 类型 | 说明 |
|-------|------|-------------|
| `prompt` | 字符串 | 目标语言的Dolly提示词。对于`en`配置项,该字段即为原始英文提示词。 |
| `english_prompt` | 字符串 | 原始英文提示词(对于`en`配置项,该字段与`prompt`完全一致)。 |
| `en_index` | 整数 | 指向原始英文Dolly子集的稳定索引,所有语言版本共享该索引。 |
| `language` | 字符串 | 与配置项名称匹配的ISO 639-1语言代码。 |
### 使用示例
python
from datasets import load_dataset
# 加载单种语言(例如西班牙语)
ds = load_dataset("CohereLabs/dolly-machine-translated-v2", "es", split="test")
print(ds[0])
# {'prompt': '¿Cuáles son 5 formas de comer manzanas?',
# 'english_prompt': 'What are 5 ways to eat apples?',
# 'en_index': 0,
# 'language': 'es'}
# 加载原始英文提示词
en = load_dataset("CohereLabs/dolly-machine-translated-v2", "en", split="test")
### 跨语言对齐
所有配置项均通过`en_index`进行对齐:任意语言中的第`i`行数据对应同一个英文源提示词。这使得我们无需借助外部元数据即可轻松构建跨语言的平行对比分析:
python
from datasets import load_dataset
en = load_dataset("CohereLabs/dolly-machine-translated-v2", "en", split="test")
es = load_dataset("CohereLabs/dolly-machine-translated-v2", "es", split="test")
# 所有数据集均按`en_index`排序,因此可直接通过位置索引对齐。
assert en["en_index"] == es["en_index"]
### 来源归因
- **原始提示词**:[`databricks/databricks-dolly-15k`](https://huggingface.co/datasets/databricks/databricks-dolly-15k)(本数据集仅使用其中的精选子集)。
- **翻译内容**:将原始提示词机器翻译为上述列出的语言。
- **早期发布版本**:v1版本以`dolly_machine_translated`子集的形式发布于[CohereLabs/aya_evaluation_suite](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite),并可在[`dolly_machine_translated`查看器](https://huggingface.co/datasets/CohereLabs/aya_evaluation_suite/viewer/dolly_machine_translated)中浏览。
### 许可证
原始Dolly提示词采用CC BY-SA 3.0协议发布;完整条款请参阅[`databricks/databricks-dolly-15k`](https://huggingface.co/datasets/databricks/databricks-dolly-15k)数据集说明页。本数据集的翻译内容采用相同许可证协议发布。
提供机构:
CohereLabs



