data-is-better-together/MPEP_DUTCH
收藏Hugging Face2024-04-29 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/data-is-better-together/MPEP_DUTCH
下载链接
链接失效反馈官方服务:
资源简介:
---
size_categories: n<1K
tags:
- rlfh
- argilla
- human-feedback
---
# Dataset Card for MPEP_DUTCH
This dataset has been created with [Argilla](https://docs.argilla.io).
As shown in the sections below, this dataset can be loaded into Argilla as explained in [Load with Argilla](#load-with-argilla), or used directly with the `datasets` library in [Load with `datasets`](#load-with-datasets).
## Dataset Description
- **Homepage:** https://argilla.io
- **Repository:** https://github.com/argilla-io/argilla
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
This dataset contains:
* A dataset configuration file conforming to the Argilla dataset format named `argilla.yaml`. This configuration file will be used to configure the dataset when using the `FeedbackDataset.from_huggingface` method in Argilla.
* Dataset records in a format compatible with HuggingFace `datasets`. These records will be loaded automatically when using `FeedbackDataset.from_huggingface` and can be loaded independently using the `datasets` library via `load_dataset`.
* The [annotation guidelines](#annotation-guidelines) that have been used for building and curating the dataset, if they've been defined in Argilla.
### Load with Argilla
To load with Argilla, you'll just need to install Argilla as `pip install argilla --upgrade` and then use the following code:
```python
import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_DUTCH")
```
### Load with `datasets`
To load this dataset with `datasets`, you'll just need to install `datasets` as `pip install datasets --upgrade` and then use the following code:
```python
from datasets import load_dataset
ds = load_dataset("DIBT/MPEP_DUTCH")
```
### Supported Tasks and Leaderboards
This dataset can contain [multiple fields, questions and responses](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset) so it can be used for different NLP tasks, depending on the configuration. The dataset structure is described in the [Dataset Structure section](#dataset-structure).
There are no leaderboards associated with this dataset.
### Languages
[More Information Needed]
## Dataset Structure
### Data in Argilla
The dataset is created in Argilla with: **fields**, **questions**, **suggestions**, **metadata**, **vectors**, and **guidelines**.
The **fields** are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions.
| Field Name | Title | Type | Required | Markdown |
| ---------- | ----- | ---- | -------- | -------- |
| source | Source | text | True | True |
The **questions** are the questions that will be asked to the annotators. They can be of different types, such as rating, text, label_selection, multi_label_selection, or ranking.
| Question Name | Title | Type | Required | Description | Values/Labels |
| ------------- | ----- | ---- | -------- | ----------- | ------------- |
| target | Vertaling | text | True | Vertaal de prompt naar het Nederlands. | N/A |
The **suggestions** are human or machine generated recommendations for each question to assist the annotator during the annotation process, so those are always linked to the existing questions, and named appending "-suggestion" and "-suggestion-metadata" to those, containing the value/s of the suggestion and its metadata, respectively. So on, the possible values are the same as in the table above, but the column name is appended with "-suggestion" and the metadata is appended with "-suggestion-metadata".
The **metadata** is a dictionary that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`.
| Metadata Name | Title | Type | Values | Visible for Annotators |
| ------------- | ----- | ---- | ------ | ---------------------- |
The **guidelines**, are optional as well, and are just a plain string that can be used to provide instructions to the annotators. Find those in the [annotation guidelines](#annotation-guidelines) section.
### Data Instances
An example of a dataset instance in Argilla looks as follows:
```json
{
"external_id": "1788",
"fields": {
"source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. \nTo demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them.\nHere\u0027s a step-by-step explanation of how your program works:\n1. The program reads the input text and identifies all the words that have antonyms.\n2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use.\n3. The program then replaces the original word with its antonym in the text.\n4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym.\n5. Finally, the program outputs the modified text with the replaced words.\nCan you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?"
},
"metadata": {
"evolved_from": null,
"kind": "synthetic",
"source": "evol_instruct"
},
"responses": [
{
"status": "submitted",
"user_id": "315be0ef-8df8-48df-8ba1-ff3339ef016a",
"values": {
"target": {
"value": "Als een AI-enthousiasteling, houd je ervan om programma\u0027s te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.\nOm de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.\nHier is een stapsgewijze uitleg van hoe je programma werkt:\n1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.\n2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.\n3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.\n4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.\n5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.\nKun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?"
}
}
}
],
"suggestions": [
{
"agent": null,
"question_name": "target",
"score": null,
"type": null,
"value": "Als een AI-enthousiasteling, houd je ervan om programma\u0027s te maken die de menselijke taal begrijpen. Je nieuwste project houdt in dat je een programma maakt dat woorden kan identificeren en vervangen door hun antoniemen in een gegeven tekst.\nOm de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het echter uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen en contextuele aanwijzingen gebruikt om ze correct te vervangen.\nHier is een stapsgewijze uitleg van hoe je programma werkt:\n1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.\n2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.\n3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.\n4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.\n5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.\nKun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?"
}
],
"vectors": {}
}
```
While the same record in HuggingFace `datasets` looks as follows:
```json
{
"external_id": "1788",
"metadata": "{\"evolved_from\": null, \"kind\": \"synthetic\", \"source\": \"evol_instruct\"}",
"source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. \nTo demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them.\nHere\u0027s a step-by-step explanation of how your program works:\n1. The program reads the input text and identifies all the words that have antonyms.\n2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use.\n3. The program then replaces the original word with its antonym in the text.\n4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym.\n5. Finally, the program outputs the modified text with the replaced words.\nCan you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?",
"target": [
{
"status": "submitted",
"user_id": "315be0ef-8df8-48df-8ba1-ff3339ef016a",
"value": "Als een AI-enthousiasteling, houd je ervan om programma\u0027s te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.\nOm de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.\nHier is een stapsgewijze uitleg van hoe je programma werkt:\n1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.\n2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.\n3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.\n4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.\n5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.\nKun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?"
}
],
"target-suggestion": "Als een AI-enthousiasteling, houd je ervan om programma\u0027s te maken die de menselijke taal begrijpen. Je nieuwste project houdt in dat je een programma maakt dat woorden kan identificeren en vervangen door hun antoniemen in een gegeven tekst.\nOm de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het echter uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen en contextuele aanwijzingen gebruikt om ze correct te vervangen.\nHier is een stapsgewijze uitleg van hoe je programma werkt:\n1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.\n2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.\n3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.\n4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.\n5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.\nKun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?",
"target-suggestion-metadata": {
"agent": null,
"score": null,
"type": null
}
}
```
### Data Fields
Among the dataset fields, we differentiate between the following:
* **Fields:** These are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions.
* **source** is of type `text`.
* **Questions:** These are the questions that will be asked to the annotators. They can be of different types, such as `RatingQuestion`, `TextQuestion`, `LabelQuestion`, `MultiLabelQuestion`, and `RankingQuestion`.
* **target** is of type `text`, and description "Vertaal de prompt naar het Nederlands.".
* **Suggestions:** As of Argilla 1.13.0, the suggestions have been included to provide the annotators with suggestions to ease or assist during the annotation process. Suggestions are linked to the existing questions, are always optional, and contain not just the suggestion itself, but also the metadata linked to it, if applicable.
* (optional) **target-suggestion** is of type `text`.
Additionally, we also have two more fields that are optional and are the following:
* **metadata:** This is an optional field that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`.
* **external_id:** This is an optional field that can be used to provide an external ID for the dataset record. This can be useful if you want to link the dataset record to an external resource, such as a database or a file.
### Data Splits
The dataset contains a single split, which is `train`.
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation guidelines
## Leaderboard
Zie de voortgang op het [Leaderboard](https://huggingface.co/spaces/DIBT-Dutch/prompt-translation).
## Hulp bij het vertalen
- Er staat een vertaalsuggestie klaar die door GPT-4 gemaakt is. Deze mag je aanpassen zoveel als je wilt, of je mag hem verwijderen en helemaal zelf vertalen.
- Je wordt aangemoedigd om het taalgebruik aan te passen om de prompt voor jou natuurlijker te laten klinken
- Prompts die erg specifieke vragen stellen over niet-Nederlandstalige gebieden mag je vernederlandsen. Bijvoorbeeld: in plaats van Amerikaanse staten kun je Nederlandse of Belgische provincies gebruiken.
- Maak zelf een inschatting of en hoe je bepaalde technische termen (bijvoorbeeld wetenschappelijke termen of programmeertermen) wilt vertalen. Wetenschappelijke termen in het Nederlands kan je vaak het makkelijkst terugvinden door de Engelstalige Wikipedia-pagina op te zoeken, en vanaf daar door te klikken naar de Nederlandstalige variant.
- Soms heeft GPT-4 de prompt ook uitgevoerd in plaats van alleen vertaald. In dat geval mag je de uitvoer gewoon verwijderen.
## Discord
Vragen of onduidelijkheden? Kom ons opzoeken in het [Discord-kanaal](https://discord.com/channels/879548962464493619/1217585262595408034)!
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
[More Information Needed]
---
样本规模:样本数小于1000
标签:
- 人类反馈强化学习(RLHF)
- Argilla
- 人类反馈标注
---
# MPEP_DUTCH 数据集卡片
本数据集基于[Argilla](https://docs.argilla.io)构建。
如下文所述,该数据集既可按照[通过Argilla加载](#load-with-argilla)中的说明导入Argilla,也可直接通过Hugging Face `datasets`库按照[通过datasets加载](#load-with-datasets)的方式使用。
## 数据集说明
- **主页:** https://argilla.io
- **代码仓库:** https://github.com/argilla-io/argilla
- **论文:**
- **排行榜:**
- **联系方式:**
### 数据集概述
本数据集包含:
* 符合Argilla数据集格式的配置文件`argilla.yaml`。当在Argilla中使用`FeedbackDataset.from_huggingface`方法时,将使用该配置文件完成数据集配置。
* 兼容Hugging Face `datasets`库格式的数据集记录。当使用`FeedbackDataset.from_huggingface`时,这些记录会自动加载;也可通过`datasets`库的`load_dataset`方法独立加载。
* 用于构建与整理数据集的**标注指南**(若已在Argilla中定义)。
### 通过Argilla加载
要通过Argilla加载该数据集,只需执行`pip install argilla --upgrade`升级Argilla,然后运行以下代码:
python
import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_DUTCH")
### 通过datasets库加载
要通过`datasets`库加载该数据集,只需执行`pip install datasets --upgrade`升级datasets库,然后运行以下代码:
python
from datasets import load_dataset
ds = load_dataset("DIBT/MPEP_DUTCH")
### 支持任务与排行榜
本数据集包含[多个字段、问题与回复](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset),因此可根据配置适配多种自然语言处理任务。数据集结构详见[数据集结构部分](#dataset-structure)。
本数据集暂无关联排行榜。
### 语言
[需补充更多信息]
## 数据集结构
### Argilla中的数据结构
该数据集在Argilla中由以下部分构成:**字段(fields)**、**问题(questions)**、**建议(suggestions)**、**元数据(metadata)**、**向量(vectors)**与**标注指南(guidelines)**。
**字段**即数据集记录本身,目前仅支持文本字段,用于接收针对问题的回复。
| 字段名称 | 标题 | 类型 | 是否必填 | 支持Markdown |
| ---------- | ----- | ---- | -------- | -------- |
| source | 源 | 文本 | 是 | 是 |
**问题**即向标注人员提出的查询,支持多种类型,包括评分、文本、标签选择、多标签选择与排序等。
| 问题名称 | 标题 | 类型 | 是否必填 | 描述 | 可选值/标签 |
| ------------- | ----- | ---- | -------- | ----------- | ------------- |
| target | 翻译 | 文本 | 是 | 将提示文本翻译为荷兰语。 | 无 |
**建议**是为辅助标注人员完成标注流程而提供的人工或机器生成的推荐结果,始终与现有问题关联,命名格式为在问题名称后追加`-suggestion`与`-suggestion-metadata`,分别存储建议内容与对应元数据。可能的取值与上述表格一致,仅列名追加了`-suggestion`后缀,元数据则追加`-suggestion-metadata`后缀。
**元数据**是可用于提供数据集记录额外信息的字典,可为标注人员提供额外上下文,或补充数据集记录本身的相关信息,例如指向数据集记录原始来源的链接、作者、日期或来源平台等。元数据为可选字段,可与`argilla.yaml`中定义的数据集配置文件内的`metadata_properties`关联。
| 元数据名称 | 标题 | 类型 | 可选值 | 对标注人员可见 |
| ------------- | ----- | ---- | ------ | ---------------------- |
**标注指南**同样为可选字段,为纯文本字符串,用于向标注人员提供操作说明,详见[标注指南](#annotation-guidelines)部分。
### 数据集实例
Argilla格式下的数据集示例如以下JSON所示:
json
{
"external_id": "1788",
"fields": {
"source": "作为AI爱好者,你热衷于开发能够理解人类语言的程序。你最新的项目是打造一款可以识别文本中的单词,并将其替换为对应反义词的程序。
为展示该程序的效果,你决定在一篇关于近期政治事件的新闻文章上进行测试。为提升难度,你还希望程序能够区分同形异义词,并利用上下文线索正确完成替换。
以下是该程序的分步工作原理:
1. 程序读取输入文本,识别所有带有反义词的单词。
2. 针对每个此类单词,程序会识别其所在上下文,以确定应使用的正确反义词。
3. 随后程序会将文本中的原单词替换为其对应的反义词。
4. 若原单词存在多重含义,程序会利用上下文判断其具体语义,并替换为匹配的反义词。
5. 最终,程序输出完成替换后的修改文本。
你能否一展自然语言处理技能,尝试识别出修改后文本中使用的反义词?"
},
"metadata": {
"evolved_from": null,
"kind": "synthetic",
"source": "evol_instruct"
},
"responses": [
{
"status": "已提交",
"user_id": "315be0ef-8df8-48df-8ba1-ff3339ef016a",
"values": {
"target": {
"value": "作为一名AI爱好者,你热衷于开发能够理解人类语言的程序。你最新的项目是打造一款可以识别文本中的单词,并将其替换为对应反义词的程序。
为展示该程序的效果,你决定在一篇关于近期政治事件的新闻文章上进行测试。为提升难度,你还希望程序能够区分同形异义词,并利用上下文线索正确完成替换。
以下是该程序的分步工作原理:
1. 程序读取输入文本,识别所有带有反义词的单词。
2. 针对每个此类单词,程序会识别其所在上下文,以确定应使用的正确反义词。
3. 随后程序会将文本中的原单词替换为其对应的反义词。
4. 若原单词存在多重含义,程序会利用上下文判断其具体语义,并替换为匹配的反义词。
5. 最终,程序输出完成替换后的修改文本。
你能否一展自然语言处理技能,尝试识别出修改后文本中使用的反义词?"
}
}
}
],
"suggestions": [
{
"agent": null,
"question_name": "target",
"score": null,
"type": null,
"value": "作为一名AI爱好者,你热衷于开发能够理解人类语言的程序。你最新的项目是打造一款可以识别文本中的单词,并将其替换为对应反义词的程序。
为展示该程序的效果,你决定在一篇关于近期政治事件的新闻文章上进行测试。为提升难度,你还希望程序能够区分同形异义词,并利用上下文线索正确完成替换。
以下是该程序的分步工作原理:
1. 程序读取输入文本,识别所有带有反义词的单词。
2. 针对每个此类单词,程序会识别其所在上下文,以确定应使用的正确反义词。
3. 随后程序会将文本中的原单词替换为其对应的反义词。
4. 若原单词存在多重含义,程序会利用上下文判断其具体语义,并替换为匹配的反义词。
5. 最终,程序输出完成替换后的修改文本。
你能否一展自然语言处理技能,尝试识别出修改后文本中使用的反义词?"
}
],
"vectors": {}
}
而该记录在Hugging Face `datasets`库中的格式如下所示:
json
{
"external_id": "1788",
"metadata": "{"evolved_from": null, "kind": "synthetic", "source": "evol_instruct"}",
"source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text.
To demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them.
Here's a step-by-step explanation of how your program works:
1. The program reads the input text and identifies all the words that have antonyms.
2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use.
3. The program then replaces the original word with its antonym in the text.
4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym.
5. Finally, the program outputs the modified text with the replaced words.
Can you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?",
"target": [
{
"status": "submitted",
"user_id": "315be0ef-8df8-48df-8ba1-ff3339ef016a",
"value": "Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.
5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.
Kun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?"
}
],
"target-suggestion": "Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project houdt in dat je een programma maakt dat woorden kan identificeren en vervangen door hun antoniemen in een gegeven tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het echter uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen en contextuele aanwijzingen gebruikt om ze correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de context om te bepalen welke betekenis bedoeld is en vervangt het door het passende antoniem.
5. Uiteindelijk geeft het programma de aangepaste tekst uit met de vervangen woorden.
Kun je je vaardigheden in natuurlijke taalverwerking op de proef stellen en proberen de antoniemen te identificeren die in de gewijzigde tekst worden gebruikt?",
"target-suggestion-metadata": {
"agent": null,
"score": null,
"type": null
}
}
### 数据集字段说明
我们将数据集字段分为以下几类:
* **字段(Fields):** 即数据集记录本身,目前仅支持文本字段,用于接收针对问题的回复。
* **source** 为文本类型字段。
* **问题(Questions):** 即向标注人员提出的查询,支持多种类型,包括`RatingQuestion`(评分问题)、`TextQuestion`(文本问题)、`LabelQuestion`(单标签选择问题)、`MultiLabelQuestion`(多标签选择问题)与`RankingQuestion`(排序问题)。
* **target** 为文本类型字段,描述为"将提示文本翻译为荷兰语"。
* **建议(Suggestions):** 自Argilla 1.13.0版本起,引入建议功能以辅助标注人员完成标注流程。建议与对应问题绑定,为可选字段,不仅包含建议内容本身,还包含关联的元数据(若有)。
* (可选)**target-suggestion** 为文本类型字段。
此外,还有两个可选字段:
* **元数据(metadata):** 可选字段,用于补充数据集记录的额外信息,可为标注人员提供上下文,或记录数据集记录本身的相关细节,例如原始来源链接、作者、日期或来源平台等。元数据为可选字段,可与`argilla.yaml`配置文件中定义的`metadata_properties`关联。
* **external_id:** 可选字段,用于为数据集记录分配外部ID,便于将数据集记录与外部资源(如数据库或文件)进行关联。
### 数据集划分
本数据集仅包含一个划分:`train`(训练集)。
## 数据集构建
### 筛选依据
[需补充更多信息]
### 源数据
#### 初始数据收集与标准化
[需补充更多信息]
#### 源文本创作者是谁?
[需补充更多信息]
### 标注信息
#### 标注指南
## 排行榜
可在[排行榜](https://huggingface.co/spaces/DIBT-Dutch/prompt-translation)查看进度。
## 翻译辅助说明
- 已提供由GPT-4生成的翻译建议,你可根据需求自由调整,或完全舍弃并自行翻译。
- 建议调整语言表达,使提示文本更符合自然的母语使用习惯。
- 针对涉及非荷兰语地区的特定问题,可将其本地化调整为荷兰语场景。例如,将"美国各州"替换为荷兰或比利时的省份。
- 请自行判断技术术语(如科学术语或编程术语)的翻译方式。荷兰语的科学术语通常可通过查询对应英文维基百科页面,跳转至荷兰语版本获取标准译法。
- 若GPT-4不仅完成了翻译,还执行了提示中的任务,可直接删除执行结果。
## Discord 社区
若有疑问或不明之处,欢迎前往[Discord频道](https://discord.com/channels/879548962464493619/1217585262595408034)咨询!
#### 标注流程
[需补充更多信息]
#### 标注人员是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差分析
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 补充信息
### 数据集维护者
[需补充更多信息]
### 许可信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献者
[需补充更多信息]
提供机构:
data-is-better-together



