aya_dutch_dpo_raw
收藏魔搭社区2025-07-11 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/data-is-better-together/aya_dutch_dpo_raw
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for aya_dutch_dpo_raw
This dataset has been created with [distilabel](https://distilabel.argilla.io/).
## Dataset Summary
This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI:
```console
distilabel pipeline run --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw/raw/main/pipeline.yaml"
```
or explore the configuration:
```console
distilabel pipeline info --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw/raw/main/pipeline.yaml"
```
## Dataset structure
The examples have the following structure per configuration:
Configuration: default
```json
{
"annotation_type": "re-annotations",
"generation": "De constructie van het fort, dat werd opgetrokken in de haven van Lahaina met behulp van massive koraalblokken die uit de omringende riffen waren verwijderd, markeerde een keerpunt in de politieke en economische ontwikkeling van het eiland Maui in de eerste helft van de negentiende eeuw.",
"generation_model": "meta-llama/Meta-Llama-3-70B-Instruct",
"generation_models": [
"aya",
"meta-llama/Meta-Llama-3-70B-Instruct"
],
"generations": [
"Een meer complexe versie van de zin is natuurlijk: \"Het fort werd gebouwd in het kadegebied bij Lahaina Harbor van koraalblokken met muren bekroond met 47 kanonnen die van schepen zijn verkregen\".",
"De constructie van het fort, dat werd opgetrokken in de haven van Lahaina met behulp van massive koraalblokken die uit de omringende riffen waren verwijderd, markeerde een keerpunt in de politieke en economische ontwikkeling van het eiland Maui in de eerste helft van de negentiende eeuw."
],
"instruction": "Maak een complexere zin: Het fort werd gebouwd in de haven van Lahaina met koraalblokken.",
"language": "Dutch",
"language_code": "nld",
"model_name": "meta-llama/Meta-Llama-3-70B-Instruct",
"predicted_generation_language": "nld_Latn",
"predicted_generation_language_score": 0.9995737671852112,
"ratings": [
4,
5
],
"rationales": [
"The text accurately provides a more complex sentence as requested, and the added details are correct (e.g., \"muren bekroond met 47 kanonnen\"). The sentence is well-structured and easy to follow. However, the model could be more confident in its language, and some parts feel slightly redundant (e.g., \"kadegebied bij Lahaina Harbor\").",
"The text provides a sophisticated and accurate sentence that not only meets the request but also adds valuable context about the significance of the fort\u0027s construction. The language is confident and precise, and the sentence is well-structured and engaging. The model demonstrates a thorough understanding of the topic and effectively conveys its knowledge without any noticeable errors or hallucinations."
],
"targets": "Een meer complexe versie van de zin is natuurlijk: \"Het fort werd gebouwd in het kadegebied bij Lahaina Harbor van koraalblokken met muren bekroond met 47 kanonnen die van schepen zijn verkregen\".",
"user_id": "ca908e583236b208e473e89dae5c7b7d3daf3662e2bbf6606f0702c718bb5c06"
}
```
This subset can be loaded as:
```python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo_raw", "default")
```
Or simply as it follows, since there's only one configuration and is named `default`:
```python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo_raw")
```
# 数据集卡片:aya_dutch_dpo_raw
本数据集基于[distilabel](https://distilabel.argilla.io/)构建。
## 数据集概述
本数据集包含一个`pipeline.yaml`文件,可通过`distilabel`命令行界面(CLI)运行以下命令复现生成该数据集的流水线:
console
distilabel pipeline run --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw/raw/main/pipeline.yaml"
或查看该配置的详细信息:
console
distilabel pipeline info --config "https://huggingface.co/datasets/DIBT/aya_dutch_dpo_raw/raw/main/pipeline.yaml"
## 数据集结构
各配置对应的示例数据结构如下:
配置:default
json
{
"annotation_type": "re-annotations",
"generation": "De constructie van het fort, dat werd opgetrokken in de haven van Lahaina met behulp van massive koraalblokken die uit de omringende riffen waren verwijderd, markeerde een keerpunt in de politieke en economische ontwikkeling van het eiland Maui in de eerste helft van de negentiende eeuw.",
"generation_model": "meta-llama/Meta-Llama-3-70B-Instruct",
"generation_models": [
"aya",
"meta-llama/Meta-Llama-3-70B-Instruct"
],
"generations": [
"Een meer complexe versie van de zin is natuurlijk: "Het fort werd gebouwd in het kadegebied bij Lahaina Harbor van koraalblokken met muren bekroond met 47 kanonnen die van schepen zijn verkregen".",
"De constructie van het fort, dat werd opgetrokken in de haven van Lahaina met behulp van massive koraalblokken die uit de omringende riffen waren verwijderd, markeerde een keerpunt in de politieke en economische ontwikkeling van het eiland Maui in de eerste helft van de negentiende eeuw."
],
"instruction": "Maak een complexere zin: Het fort werd gebouwd in de haven van Lahaina met koraalblokken.",
"language": "Dutch",
"language_code": "nld",
"model_name": "meta-llama/Meta-Llama-3-70B-Instruct",
"predicted_generation_language": "nld_Latn",
"predicted_generation_language_score": 0.9995737671852112,
"ratings": [
4,
5
],
"rationales": [
"The text accurately provides a more complex sentence as requested, and the added details are correct (e.g., "muren bekroond met 47 kanonnen"). The sentence is well-structured and easy to follow. However, the model could be more confident in its language, and some parts feel slightly redundant (e.g., "kadegebied bij Lahaina Harbor").",
"The text provides a sophisticated and accurate sentence that not only meets the request but also adds valuable context about the significance of the fort's construction. The language is confident and precise, and the sentence is well-structured and engaging. The model demonstrates a thorough understanding of the topic and effectively conveys its knowledge without any noticeable errors or hallucinations."
],
"targets": "Een meer complexe versie van de zin is natuurlijk: "Het fort werd gebouwd in het kadegebied bij Lahaina Harbor van koraalblokken met muren bekroond met 47 kanonnen die van schepen zijn verkregen".",
"user_id": "ca908e583236b208e473e89dae5c7b7d3daf3662e2bbf6606f0702c718bb5c06"
}
该子集可通过以下方式加载:
python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo_raw", "default")
由于该数据集仅包含一个名为`default`的配置,也可通过如下简化方式加载:
python
from datasets import load_dataset
ds = load_dataset("DIBT/aya_dutch_dpo_raw")
提供机构:
maas
创建时间:
2025-07-10



