aya_dutch_dpo
收藏魔搭社区2025-07-11 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/data-is-better-together/aya_dutch_dpo
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for aya_dutch_dpo
This dataset has been created with [distilabel](https://distilabel.argilla.io/).
This dataset was created as part of the [Data is Better Together](https://github.com/huggingface/data-is-better-together) project, in particular as part of an ongoing [effort](https://github.com/huggingface/data-is-better-together?tab=readme-ov-file#4-dpoorpo-datasets-for-more-languages) to help foster the creation of DPO/ORPO datasets for more languages.
The dataset was constructed using the following steps:
- starting with the [`aya_dataset`](https://huggingface.co/datasets/CohereForAI/aya_dataset) and filtering for Dutch examples
- using the [Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) model to generate new examples for each prompt
- Using Meta-Llama-3-70B-Instruct to act as an LLM judge to rate each generated example
- Using [Argilla](https://argilla.io) additional human ratings for each response can be collected over time. You can participate in the rating process with a Hugging Face login [here](https://dibt-demo-argilla-space.hf.space/dataset/6a6fdd31-6ce5-4f32-9131-af1c8e33987c/annotation-mode).
- The dataset is then turned into a DPO/ORPO style dataset by removing any ties in the ratings of each prompt and then selecting the highest-rated prompt as the chosen response and the lowest-rated prompt as the rejected response.
You can see the full process for generating this dataset [here](https://github.com/huggingface/data-is-better-together?tab=readme-ov-file#4-dpoorpo-datasets-for-more-languages).
You can also find the raw version of the dataset created via `distilabel` [here](https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw).
## Dataset Summary
This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI:
```console
distilabel pipeline run --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo/raw/main/pipeline.yaml"
```
or explore the configuration:
```console
distilabel pipeline info --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo/raw/main/pipeline.yaml"
```
## Dataset structure
The examples have the following structure per configuration:
Configuration: default
```json
{
"annotation_type": "re-annotations",
"generation": "De beschreven tekst geeft een overzicht van de atletiekcarri\u00e8re van Reynolds en focust zich vooral op het jaar 1987. In die periode behaalde hij successen door het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 meter. Bij de Jesse Owens Classic liep hij een indrukwekkende tijd van 44,10 seconden op een laaglandbaan. Op zijn eerste grote internationale",
"generation_model": "upstage/SOLAR-10.7B-Instruct-v1.0",
"generations": [
"Het gaat over de wereldkampioenschappen van 1987 van Reynolds.",
"De beschreven tekst geeft een overzicht van de atletiekcarri\u00e8re van Reynolds en focust zich vooral op het jaar 1987. In die periode behaalde hij successen door het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 meter. Bij de Jesse Owens Classic liep hij een indrukwekkende tijd van 44,10 seconden op een laaglandbaan. Op zijn eerste grote internationale"
],
"instruction": "Wat voor belangrijke gebeurtenis beschrijft de volgende tekst: Reynolds studeerde achtereenvolgens aan de \"Hoban Highschool\" (1983), \"Butler County JC\" (1984) en de \"Ohio State University\" (1987). Zijn eerste successen behaalde hij in 1987 met het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 m. Bij de Jesse Owens Classic verbaasde hij de wereld door op een laaglandbaan 44,10 s te lopen. Op zijn eerste grote wedstrijd, de wereldkampioenschappen van 1987 in Helsinki, won hij gelijk een bronzen medaille op de 400 m. Met een tijd van 44,80 finishte hij achter de Oost-Duitser Thomas Sch\u00f6nlebe (goud; 44,33) en de Nigeriaan Innocent Egbunike (zilver; 44,56).",
"language": "Dutch",
"language_code": "nld",
"predicted_generation_language": "nld_Latn",
"predicted_generation_language_score": 0.9986531138420105,
"response_source": ["aya", "upstage/SOLAR-10.7B-Instruct-v1.0"],
"targets": "Het gaat over de wereldkampioenschappen van 1987 van Reynolds.",
"user_id": "ca908e583236b208e473e89dae5c7b7d3daf3662e2bbf6606f0702c718bb5c06"
}
```
This subset can be loaded as:
```python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo", "default")
```
Or simply as it follows, since there's only one configuration and is named `default`:
```python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo")
```
# aya_dutch_dpo 数据集卡片
本数据集基于 [`distilabel`](https://distilabel.argilla.io/) 工具构建。
本数据集是「数据协同共创(Data is Better Together)」项目的产物,具体隶属于该项目中一项持续推进的工作,旨在推动更多语种的DPO/ORPO风格数据集的构建。
本数据集的构建流程如下:
- 以 [`aya_dataset`](https://huggingface.co/datasets/CohereForAI/aya_dataset) 为基础数据源,筛选出荷兰语样本
- 调用 [Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 模型,为每条提示词生成新的样本
- 以Meta-Llama-3-70B-Instruct作为大语言模型(LLM)评判器,为每条生成的样本进行评分
- 借助 [Argilla](https://argilla.io) 平台,可逐步收集针对每条回复的人工标注评分。用户可通过 Hugging Face 账号登录[此处](https://dibt-demo-argilla-space.hf.space/dataset/6a6fdd31-6ce5-4f32-9131-af1c8e33987c/annotation-mode)参与标注评分工作
- 移除每条提示词下评分持平的样本,将最高分回复选为“选中回复(chosen response)”,最低分回复选为“拒选回复(rejected response)”,最终将数据集转换为DPO/ORPO格式
你可通过[此处](https://github.com/huggingface/data-is-better-together?tab=readme-ov-file#4-dpoorpo-datasets-for-more-languages)查看本数据集的完整构建流程。
你还可通过[此处](https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw)获取基于`distilabel`生成的原始版本数据集。
## 数据集概览
本数据集包含一个`pipeline.yaml`配置文件,可通过`distilabel`命令行工具复现生成本数据集的流水线流程:
console
distilabel pipeline run --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo/raw/main/pipeline.yaml"
也可查看该配置的详细信息:
console
distilabel pipeline info --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo/raw/main/pipeline.yaml"
## 数据集结构
各配置下的样本结构如下:
配置项:default
json
{
"annotation_type": "re-annotations",
"generation": "De beschreven tekst geeft een overzicht van de atletiekcarriu00e8re van Reynolds en focust zich vooral op het jaar 1987. In die periode behaalde hij successen door het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 meter. Bij de Jesse Owens Classic liep hij een indrukwekkende tijd van 44,10 seconden op een laaglandbaan. Op zijn eerste grote internationale",
"generation_model": "upstage/SOLAR-10.7B-Instruct-v1.0",
"generations": [
"Het gaat over de wereldkampioenschappen van 1987 van Reynolds.",
"De beschreven tekst geeft een overzicht van de atletiekcarriu00e8re van Reynolds en focust zich vooral op het jaar 1987. In die periode behaalde hij successen door het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 meter. Bij de Jesse Owens Classic liep hij een indrukwekkende tijd van 44,10 seconden op een laaglandbaan. Op zijn eerste grote internationale"
],
"instruction": "Wat voor belangrijke gebeurtenis beschrijft de volgende tekst: Reynolds studeerde achtereenvolgens aan de "Hoban Highschool" (1983), "Butler County JC" (1984) en de "Ohio State University" (1987). Zijn eerste successen behaalde hij in 1987 met het winnen van de Universiteitskampioenschappen (NCAA) en de Amerikaanse kampioenschappen op de 400 m. Bij de Jesse Owens Classic verbaasde hij de wereld door op een laaglandbaan 44,10 s te lopen. Op zijn eerste grote wedstrijd, de wereldkampioenschappen van 1987 in Helsinki, won hij gelijk een bronzen medaille op de 400 m. Met een tijd van 44,80 finishte hij achter de Oost-Duitser Thomas Schu00f6nlebe (goud; 44,33) en de Nigeriaan Innocent Egbunike (zilver; 44,56).",
"language": "Dutch",
"language_code": "nld",
"predicted_generation_language": "nld_Latn",
"predicted_generation_language_score": 0.9986531138420105,
"response_source": ["aya", "upstage/SOLAR-10.7B-Instruct-v1.0"],
"targets": "Het gaat over de wereldkampioenschappen van 1987 van Reynolds.",
"user_id": "ca908e583236b208e473e89dae5c7b7d3daf3662e2bbf6606f0702c718bb5c06"
}
可通过以下方式加载该子集:
python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo", "default")
由于本数据集仅包含一个名为`default`的配置,你也可以直接通过如下极简方式加载:
python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo")
提供机构:
maas
创建时间:
2025-07-10



