five

MPEP_GERMAN

收藏
魔搭社区2025-07-11 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/data-is-better-together/MPEP_GERMAN
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for MPEP_GERMAN This dataset has been created with [Argilla](https://docs.argilla.io). As shown in the sections below, this dataset can be loaded into Argilla as explained in [Load with Argilla](#load-with-argilla), or used directly with the `datasets` library in [Load with `datasets`](#load-with-datasets). ## Dataset Description - **Homepage:** https://argilla.io - **Repository:** https://github.com/argilla-io/argilla - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary This dataset contains: * A dataset configuration file conforming to the Argilla dataset format named `argilla.yaml`. This configuration file will be used to configure the dataset when using the `FeedbackDataset.from_huggingface` method in Argilla. * Dataset records in a format compatible with HuggingFace `datasets`. These records will be loaded automatically when using `FeedbackDataset.from_huggingface` and can be loaded independently using the `datasets` library via `load_dataset`. * The [annotation guidelines](#annotation-guidelines) that have been used for building and curating the dataset, if they've been defined in Argilla. ### Load with Argilla To load with Argilla, you'll just need to install Argilla as `pip install argilla --upgrade` and then use the following code: ```python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_GERMAN") ``` ### Load with `datasets` To load this dataset with `datasets`, you'll just need to install `datasets` as `pip install datasets --upgrade` and then use the following code: ```python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_GERMAN") ``` ### Supported Tasks and Leaderboards This dataset can contain [multiple fields, questions and responses](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset) so it can be used for different NLP tasks, depending on the configuration. The dataset structure is described in the [Dataset Structure section](#dataset-structure). There are no leaderboards associated with this dataset. ### Languages [More Information Needed] ## Dataset Structure ### Data in Argilla The dataset is created in Argilla with: **fields**, **questions**, **suggestions**, **metadata**, **vectors**, and **guidelines**. The **fields** are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions. | Field Name | Title | Type | Required | Markdown | | ---------- | ----- | ---- | -------- | -------- | | source | Prompt | text | True | True | The **questions** are the questions that will be asked to the annotators. They can be of different types, such as rating, text, label_selection, multi_label_selection, or ranking. | Question Name | Title | Type | Required | Description | Values/Labels | | ------------- | ----- | ---- | -------- | ----------- | ------------- | | target | Target | text | True | Überprüfe die Übersetzung und passe sie an, falls notwendig. Weitere Hinweise in den Annotation Guidelines. | N/A | The **suggestions** are human or machine generated recommendations for each question to assist the annotator during the annotation process, so those are always linked to the existing questions, and named appending "-suggestion" and "-suggestion-metadata" to those, containing the value/s of the suggestion and its metadata, respectively. So on, the possible values are the same as in the table above, but the column name is appended with "-suggestion" and the metadata is appended with "-suggestion-metadata". The **metadata** is a dictionary that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`. | Metadata Name | Title | Type | Values | Visible for Annotators | | ------------- | ----- | ---- | ------ | ---------------------- | The **guidelines**, are optional as well, and are just a plain string that can be used to provide instructions to the annotators. Find those in the [annotation guidelines](#annotation-guidelines) section. ### Data Instances An example of a dataset instance in Argilla looks as follows: ```json { "external_id": "5996", "fields": { "source": "Can you provide two examples of metaphors using an Excel table format? \nHere is an Excel table with two examples of metaphors:\n| Metaphor | Meaning |\n| ------------- |:-------------:|\n| Life is a journey | Life can be compared to a journey with ups and downs |\n| Love is a rose | Love can be compared to a delicate and beautiful rose |\nCan you provide two more examples of metaphors using a MATLAB code format?" }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "evol_instruct" }, "responses": [ { "status": "submitted", "user_id": "a26ea56e-a953-4474-ad7c-5d66cd0d35f8", "values": { "target": { "value": "Kannst du zwei Beispiele f\u00fcr Metaphern im Excel-Tabellenformat liefern?\n\nHier ist eine Excel-Tabelle mit zwei Beispielen f\u00fcr Metaphern:\n\n| Metapher | Bedeutung |\n\n| ------------- |:-------------:|\n\n| Das Leben ist eine Reise | Das Leben kann mit einer Reise mit H\u00f6hen und Tiefen verglichen werden |\n\n| Liebe ist wie eine Rose | Liebe kann mit einer zarten und sch\u00f6nen Rose verglichen werden |\n\nKannst du zwei weitere Beispiele f\u00fcr Metaphern in einem MATLAB-Codeformat liefern?" } } } ], "suggestions": [ { "agent": null, "question_name": "target", "score": null, "type": null, "value": "Kannst du zwei Beispiele f\u00fcr Metaphern in einem Excel-Tabellenformat liefern?\n\nHier ist eine Excel-Tabelle mit zwei Beispielen f\u00fcr Metaphern:\n\n| Metapher | Bedeutung |\n\n| ------------- |:-------------:|\n\n| Das Leben ist eine Reise | Das Leben kann mit einer Reise mit H\u00f6hen und Tiefen verglichen werden |\n\n| Liebe ist eine Rose | Liebe kann mit einer zarten und sch\u00f6nen Rose verglichen werden |\n\nKannst du zwei weitere Beispiele f\u00fcr Metaphern in einem MATLAB-Codeformat liefern?" } ], "vectors": {} } ``` While the same record in HuggingFace `datasets` looks as follows: ```json { "external_id": "5996", "metadata": "{\"source\": \"evol_instruct\", \"kind\": \"synthetic\", \"evolved_from\": null}", "source": "Can you provide two examples of metaphors using an Excel table format? \nHere is an Excel table with two examples of metaphors:\n| Metaphor | Meaning |\n| ------------- |:-------------:|\n| Life is a journey | Life can be compared to a journey with ups and downs |\n| Love is a rose | Love can be compared to a delicate and beautiful rose |\nCan you provide two more examples of metaphors using a MATLAB code format?", "target": [ { "status": "submitted", "user_id": "a26ea56e-a953-4474-ad7c-5d66cd0d35f8", "value": "Kannst du zwei Beispiele f\u00fcr Metaphern im Excel-Tabellenformat liefern?\n\nHier ist eine Excel-Tabelle mit zwei Beispielen f\u00fcr Metaphern:\n\n| Metapher | Bedeutung |\n\n| ------------- |:-------------:|\n\n| Das Leben ist eine Reise | Das Leben kann mit einer Reise mit H\u00f6hen und Tiefen verglichen werden |\n\n| Liebe ist wie eine Rose | Liebe kann mit einer zarten und sch\u00f6nen Rose verglichen werden |\n\nKannst du zwei weitere Beispiele f\u00fcr Metaphern in einem MATLAB-Codeformat liefern?" } ], "target-suggestion": "Kannst du zwei Beispiele f\u00fcr Metaphern in einem Excel-Tabellenformat liefern?\n\nHier ist eine Excel-Tabelle mit zwei Beispielen f\u00fcr Metaphern:\n\n| Metapher | Bedeutung |\n\n| ------------- |:-------------:|\n\n| Das Leben ist eine Reise | Das Leben kann mit einer Reise mit H\u00f6hen und Tiefen verglichen werden |\n\n| Liebe ist eine Rose | Liebe kann mit einer zarten und sch\u00f6nen Rose verglichen werden |\n\nKannst du zwei weitere Beispiele f\u00fcr Metaphern in einem MATLAB-Codeformat liefern?", "target-suggestion-metadata": { "agent": null, "score": null, "type": null } } ``` ### Data Fields Among the dataset fields, we differentiate between the following: * **Fields:** These are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions. * **source** is of type `text`. * **Questions:** These are the questions that will be asked to the annotators. They can be of different types, such as `RatingQuestion`, `TextQuestion`, `LabelQuestion`, `MultiLabelQuestion`, and `RankingQuestion`. * **target** is of type `text`, and description "Überprüfe die Übersetzung und passe sie an, falls notwendig. Weitere Hinweise in den Annotation Guidelines.". * **Suggestions:** As of Argilla 1.13.0, the suggestions have been included to provide the annotators with suggestions to ease or assist during the annotation process. Suggestions are linked to the existing questions, are always optional, and contain not just the suggestion itself, but also the metadata linked to it, if applicable. * (optional) **target-suggestion** is of type `text`. Additionally, we also have two more fields that are optional and are the following: * **metadata:** This is an optional field that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`. * **external_id:** This is an optional field that can be used to provide an external ID for the dataset record. This can be useful if you want to link the dataset record to an external resource, such as a database or a file. ### Data Splits The dataset contains a single split, which is `train`. ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation guidelines # Leaderboard Verfolge den Fortschritt auf unserem [Leaderboard](https://huggingface.co/spaces/DIBT-German/DIBT-German-Dashboard). # Hinweise zur Übersetzung - Für jeden Prompt gibt es einen Übersetzungsvorschlag, der von GPT-4 generiert wurde. Du kannst diesen Vorschlag bearbeiten und anpassen, oder ihn entfernen und selbst übersetzen. - Du kannst die Ausdrucksweise anpassen, damit der Prompt natürlicher klingt. - Prompts, die sehr spezifische Angaben zu nicht deutschsprachigen Gebieten machen, können übertragen statt wörtlich übersetzt werden. Anstelle von US-Bundesstaaten kannst Du z.B. deutsche Bundesländer verwenden. - Entscheide selbst, ob und wie Du bestimmte Fachbegriffe übersetzen möchtest (z.B. wissenschaftliche oder Programmierbegriffe). Wissenschaftliche Begriffe auf Deutsch lassen sich oft am einfachsten finden, indem man die englische Wikipedia-Seite aufruft und sich von dort zur deutschen Version durchklickt. - Manchmal enthalten die Übersetzungsvorschläge von GPT-4 auch Antworten auf die englischsprachigen Prompts, anstatt sie nur zu übersetzen. In diesem Fall kannst Du die über die Übersetzung hinausgehende Ausgabe einfach löschen. # Mehr erfahren Du möchtest mehr über das Multilingual Prompt Evaluation Project erfahren? Besuche das Data is Better Together Repository auf [Github](https://github.com/huggingface/data-is-better-together/tree/main). Dort findest Du auch Informationen zu anderen Sprachen, an denen bereits gearbeitet wird. # Kontakt Hast Du Fragen oder Wünsche? Sprich uns gerne auf [Discord](https://discord.com/channels/879548962464493619/1217179426002047076) an. #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions [More Information Needed]

# MPEP_GERMAN 数据集卡片 本数据集由[Argilla](https://docs.argilla.io)创建。 如下文各小节所述,该数据集既可按照[通过Argilla加载](#通过Argilla加载)的说明加载至Argilla,也可通过[通过`datasets`库加载](#通过datasets库加载)小节中介绍的`datasets`库直接使用。 ## 数据集概述 - **主页:** https://argilla.io - **仓库:** https://github.com/argilla-io/argilla - **论文:** - **排行榜:** - **联系方式:** ### 数据集摘要 本数据集包含以下内容: * 符合Argilla数据集格式的配置文件`argilla.yaml`。该配置文件将在Argilla中使用`FeedbackDataset.from_huggingface`方法时,用于配置数据集。 * 兼容Hugging Face `datasets`库的数据集记录。使用`FeedbackDataset.from_huggingface`时,这些记录将自动加载;也可通过`datasets`库的`load_dataset`方法独立加载。 * 若已在Argilla中定义,则包含用于构建和整理数据集的[标注指南](#标注指南)。 ## 通过Argilla加载 若要通过Argilla加载该数据集,仅需执行以下命令安装Argilla:`pip install argilla --upgrade`,然后运行如下代码: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_GERMAN") ## 通过`datasets`库加载 若要通过`datasets`库加载该数据集,仅需执行以下命令安装`datasets`:`pip install datasets --upgrade`,然后运行如下代码: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_GERMAN") ## 支持的任务与排行榜 该数据集包含[多个字段、问题和响应](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset),因此可根据配置用于不同的自然语言处理(Natural Language Processing,简称NLP)任务,数据集结构详见[数据集结构](#数据集结构)小节。 本数据集暂无关联排行榜。 ## 语言 [需更多信息] ## 数据集结构 ### Argilla中的数据 该数据集在Argilla中包含以下元素:**字段(fields)**、**问题(questions)**、**标注建议(suggestions)**、**元数据(metadata)**、**向量(vectors)**以及**标注指南(guidelines)**。 **字段**即数据集记录本身,目前仅支持文本字段。这些字段将用于接收针对问题的响应。 | 字段名 | 标题 | 类型 | 是否必填 | 支持Markdown | | ------ | ---- | ---- | -------- | ------------ | | source | 提示文本 | 文本 | 是 | 是 | **问题**即向标注者提出的查询,可支持多种类型,如评分、文本、标签选择、多标签选择或排序。 | 问题名 | 标题 | 类型 | 是否必填 | 描述 | 取值/标签 | | ------ | ---- | ---- | -------- | ---- | --------- | | target | 目标文本 | 文本 | 是 | 请检查译文并在必要时进行调整。更多说明请参见标注指南。 | 无 | **标注建议**是为辅助标注者完成标注流程而生成的人工或机器推荐结果,始终关联至现有问题,命名格式为在问题名后追加`-suggestion`与`-suggestion-metadata`,分别存储建议内容及其元数据。因此,其可选取值与上文表格一致,但列名将追加`-suggestion`后缀,元数据则追加`-suggestion-metadata`后缀。 **元数据**是可用于提供数据集记录额外信息的字典,可用于为标注者提供额外上下文,或记录数据集本身的附加信息(例如数据集记录的原始来源链接、作者、日期等)。元数据为可选字段,可与`argilla.yaml`中定义的`metadata_properties`关联。 | 元数据名称 | 标题 | 类型 | 取值 | 对标注者可见 | | ---------- | ---- | ---- | ---- | ------------ | **标注指南**同样为可选字段,是用于向标注者提供说明的纯文本字符串,详见[标注指南](#标注指南)小节。 ### 数据集实例 Argilla中的数据集示例如以下JSON格式所示: json { "external_id": "5996", "fields": { "source": "Can you provide two examples of metaphors using an Excel table format? Here is an Excel table with two examples of metaphors: | Metaphor | Meaning | | ------------- |:-------------:| | Life is a journey | Life can be compared to a journey with ups and downs | | Love is a rose | Love can be compared to a delicate and beautiful rose | Can you provide two more examples of metaphors using a MATLAB code format?" }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "evol_instruct" }, "responses": [ { "status": "submitted", "user_id": "a26ea56e-a953-4474-ad7c-5d66cd0d35f8", "values": { "target": { "value": "Kannst du zwei Beispiele für Metaphern im Excel-Tabellenformat liefern? Hier ist eine Excel-Tabelle mit zwei Beispielen für Metaphern: | Metapher | Bedeutung | | ------------- |:-------------:| | Das Leben ist eine Reise | Das Leben kann mit einer Reise mit Höhen und Tiefen verglichen werden | | Liebe ist wie eine Rose | Liebe kann mit einer zarten und schönen Rose verglichen werden | Kannst du zwei weitere Beispiele für Metaphern in einem MATLAB-Codeformat liefern?" } } } ], "suggestions": [ { "agent": null, "question_name": "target", "score": null, "type": null, "value": "Kannst du zwei Beispiele für Metaphern in einem Excel-Tabellenformat liefern? Hier ist eine Excel-Tabelle mit zwei Beispielen für Metaphern: | Metapher | Bedeutung | | ------------- |:-------------:| | Das Leben ist eine Reise | Das Leben kann mit einer Reise mit Höhen und Tiefen verglichen werden | | Liebe ist eine Rose | Liebe kann mit einer zarten und schönen Rose verglichen werden | Kannst du zwei weitere Beispiele für Metaphern in einem MATLAB-Codeformat liefern?" } ], "vectors": {} } 而该数据集记录在Hugging Face `datasets`库中的格式如下: json { "external_id": "5996", "metadata": "{"source": "evol_instruct", "kind": "synthetic", "evolved_from": null}", "source": "Can you provide two examples of metaphors using an Excel table format? Here is an Excel table with two examples of metaphors: | Metaphor | Meaning | | ------------- |:-------------:| | Life is a journey | Life can be compared to a journey with ups and downs | | Love is a rose | Love can be compared to a delicate and beautiful rose | Can you provide two more examples of metaphors using a MATLAB code format?", "target": [ { "status": "submitted", "user_id": "a26ea56e-a953-4474-ad7c-5d66cd0d35f8", "value": "Kannst du zwei Beispiele für Metaphern im Excel-Tabellenformat liefern? Hier ist eine Excel-Tabelle mit zwei Beispielen für Metaphern: | Metapher | Bedeutung | | ------------- |:-------------:| | Das Leben ist eine Reise | Das Leben kann mit einer Reise mit Höhen und Tiefen verglichen werden | | Liebe ist wie eine Rose | Liebe kann mit einer zarten und schönen Rose verglichen werden | Kannst du zwei weitere Beispiele für Metaphern in einem MATLAB-Codeformat liefern?" } ], "target-suggestion": "Kannst du zwei Beispiele für Metaphern in einem Excel-Tabellenformat liefern? Hier ist eine Excel-Tabelle mit zwei Beispielen für Metaphern: | Metapher | Bedeutung | | ------------- |:-------------:| | Das Leben ist eine Reise | Das Leben kann mit einer Reise mit Höhen und Tiefen verglichen werden | | Liebe ist eine Rose | Liebe kann mit einer zarten und schönen Rose verglichen werden | Kannst du zwei weitere Beispiele für Metaphern in einem MATLAB-Codeformat liefern?", "target-suggestion-metadata": { "agent": null, "score": null, "type": null } } ### 数据集字段 根据数据集字段的用途,可分为以下几类: * **字段:** 即数据集记录本身,目前仅支持文本字段。这些字段将用于接收针对问题的响应。 * **source** 为文本类型。 * **问题:** 即向标注者提出的查询,可支持多种类型,如`RatingQuestion`、`TextQuestion`、`LabelQuestion`、`MultiLabelQuestion`以及`RankingQuestion`。 * **target** 为文本类型,描述为"请检查译文并在必要时进行调整。更多说明请参见标注指南。"。 * **标注建议:** 自Argilla 1.13.0版本起,标注建议功能已上线,用于为标注者提供辅助以简化标注流程。标注建议关联至现有问题,始终为可选字段,不仅包含建议内容本身,还可附带关联的元数据(若有)。 * (可选)**target-suggestion** 为文本类型。 此外,还有两个可选字段: * **元数据:** 该可选字段可用于提供数据集记录的额外信息,可为标注者提供额外上下文,或记录数据集本身的附加信息(例如数据集记录的原始来源链接、作者、日期等)。元数据为可选字段,可与`argilla.yaml`中定义的`metadata_properties`关联。 * **external_id:** 该可选字段可用于为数据集记录分配外部ID,便于将数据集记录与外部资源(如数据库或文件)关联。 ### 数据集划分 该数据集仅包含一个划分:`train`(训练集)。 ## 数据集创建 ### 数据集构建依据 [需更多信息] ### 源数据 #### 初始数据收集与归一化 [需更多信息] #### 源语言生成者是谁? [需更多信息] ### 标注 #### 标注指南 # 排行榜 关注我们的[排行榜](https://huggingface.co/spaces/DIBT-German/DIBT-German-Dashboard)的进展。 # 翻译说明 - 每个提示文本都配有由GPT-4生成的翻译建议,你可对该建议进行编辑、调整,或删除后自行翻译。 - 你可调整表达方式,使提示文本更符合自然语言习惯。 - 针对非德语地区的特定说明,可采用意译而非直译,例如将美国各州替换为德国联邦州。 - 可自行决定是否以及如何翻译特定专业术语(例如学术或编程术语)。德语中的学术术语通常可通过访问英文维基百科页面并跳转至德语版本来查找对应译法。 - 有时GPT-4生成的翻译建议会包含对英文提示的回复内容,而非仅完成翻译,此时可直接删除超出翻译范围的额外内容。 # 了解更多 想了解多语言提示评估项目(Multilingual Prompt Evaluation Project)的更多信息?请访问[Github](https://github.com/huggingface/data-is-better-together/tree/main)上的Data is Better Together仓库,你还可找到其他正在开发中的语言相关信息。 # 联系方式 如有疑问或建议,欢迎在[Discord](https://discord.com/channels/879548962464493619/1217179426002047076)联系我们。 #### 标注流程 [需更多信息] #### 标注者是谁? [需更多信息] ### 个人与敏感信息 [需更多信息] ## 数据使用注意事项 ### 数据集的社会影响 [需更多信息] ### 偏差讨论 [需更多信息] ### 其他已知局限性 [需更多信息] ## 附加信息 ### 数据集策展人 [需更多信息] ### 许可信息 [需更多信息] ### 引用信息 [需更多信息] ### 贡献 [需更多信息]
提供机构:
maas
创建时间:
2025-07-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作