five

MPEP_HUNGARIAN

收藏
魔搭社区2025-07-11 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/data-is-better-together/MPEP_HUNGARIAN
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for MPEP_HUNGARIAN This dataset has been created with [Argilla](https://docs.argilla.io). As shown in the sections below, this dataset can be loaded into Argilla as explained in [Load with Argilla](#load-with-argilla), or used directly with the `datasets` library in [Load with `datasets`](#load-with-datasets). ## Dataset Description - **Homepage:** https://argilla.io - **Repository:** https://github.com/argilla-io/argilla - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary This dataset contains: * A dataset configuration file conforming to the Argilla dataset format named `argilla.yaml`. This configuration file will be used to configure the dataset when using the `FeedbackDataset.from_huggingface` method in Argilla. * Dataset records in a format compatible with HuggingFace `datasets`. These records will be loaded automatically when using `FeedbackDataset.from_huggingface` and can be loaded independently using the `datasets` library via `load_dataset`. * The [annotation guidelines](#annotation-guidelines) that have been used for building and curating the dataset, if they've been defined in Argilla. ### Load with Argilla To load with Argilla, you'll just need to install Argilla as `pip install argilla --upgrade` and then use the following code: ```python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_HUNGARIAN") ``` ### Load with `datasets` To load this dataset with `datasets`, you'll just need to install `datasets` as `pip install datasets --upgrade` and then use the following code: ```python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_HUNGARIAN") ``` ### Supported Tasks and Leaderboards This dataset can contain [multiple fields, questions and responses](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset) so it can be used for different NLP tasks, depending on the configuration. The dataset structure is described in the [Dataset Structure section](#dataset-structure). There are no leaderboards associated with this dataset. ### Languages [More Information Needed] ## Dataset Structure ### Data in Argilla The dataset is created in Argilla with: **fields**, **questions**, **suggestions**, **metadata**, **vectors**, and **guidelines**. The **fields** are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions. | Field Name | Title | Type | Required | Markdown | | ---------- | ----- | ---- | -------- | -------- | | source | Source | text | True | True | The **questions** are the questions that will be asked to the annotators. They can be of different types, such as rating, text, label_selection, multi_label_selection, or ranking. | Question Name | Title | Type | Required | Description | Values/Labels | | ------------- | ----- | ---- | -------- | ----------- | ------------- | | target | Target | text | True | Translate the text. | N/A | The **suggestions** are human or machine generated recommendations for each question to assist the annotator during the annotation process, so those are always linked to the existing questions, and named appending "-suggestion" and "-suggestion-metadata" to those, containing the value/s of the suggestion and its metadata, respectively. So on, the possible values are the same as in the table above, but the column name is appended with "-suggestion" and the metadata is appended with "-suggestion-metadata". The **metadata** is a dictionary that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`. | Metadata Name | Title | Type | Values | Visible for Annotators | | ------------- | ----- | ---- | ------ | ---------------------- | The **guidelines**, are optional as well, and are just a plain string that can be used to provide instructions to the annotators. Find those in the [annotation guidelines](#annotation-guidelines) section. ### Data Instances An example of a dataset instance in Argilla looks as follows: ```json { "external_id": "9999", "fields": { "source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. \nTo demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them.\nHere\u0027s a step-by-step explanation of how your program works:\n1. The program reads the input text and identifies all the words that have antonyms.\n2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use.\n3. The program then replaces the original word with its antonym in the text.\n4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym.\n5. Finally, the program outputs the modified text with the replaced words.\nCan you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?" }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "evol_instruct" }, "responses": [ { "status": "submitted", "user_id": "d2d0ad53-12ef-4d3f-84c5-df3afb2b2699", "values": { "target": { "value": "Mint mesters\u00e9ges intelligencia rajong\u00f3, szeretsz olyan programokat k\u00e9sz\u00edteni, amelyek k\u00e9pesek meg\u00e9rteni az emberi nyelvet. Leg\u00fajabb projekted egy olyan program fejleszt\u00e9se, amely k\u00e9pes felismerni \u00e9s kicser\u00e9lni a szavakat azok ellent\u00e9teire egy adott sz\u00f6vegben.\nAnnak \u00e9rdek\u00e9ben, hogy bemutasd a program hat\u00e9konys\u00e1g\u00e1t, \u00fagy d\u00f6ntesz, hogy teszteled azt egy \u00fajs\u00e1gcikken, amely egy nemr\u00e9giben t\u00f6rt\u00e9nt politikai esem\u00e9nyr\u0151l sz\u00f3l. Azonban, hogy m\u00e9g nagyobb kih\u00edv\u00e1st jelentsen, azt is szeretn\u00e9d, ha a program megk\u00fcl\u00f6nb\u00f6ztetn\u00e9 a homonim\u00e1kat \u00e9s a kontextus alapj\u00e1n helyesen cser\u00e9ln\u00e9 ki azokat.\n\u00cdme, egy l\u00e9p\u00e9sr\u0151l-l\u00e9p\u00e9sre le\u00edr\u00e1s a program m\u0171k\u00f6d\u00e9s\u00e9r\u0151l:\n1. A program beolvassa a bemeneti sz\u00f6veget \u00e9s azonos\u00edt minden olyan sz\u00f3t, amelynek van ellent\u00e9te.\n2. Minden ilyen sz\u00f3 eset\u00e9n a program azonos\u00edtja a kontextust, amelyben megjelennek, hogy meghat\u00e1rozza a helyes ellent\u00e9tes sz\u00f3t, amit haszn\u00e1lni kell.\n3. A program ezut\u00e1n kicser\u00e9li az eredeti sz\u00f3t annak ellentetj\u00e9re a sz\u00f6vegben.\n4. Ha az eredeti sz\u00f3nak t\u00f6bb jelent\u00e9se is van, a program a kontextust haszn\u00e1lja annak meghat\u00e1roz\u00e1s\u00e1ra, hogy melyik jelent\u00e9s \u00e9rtend\u0151, \u00e9s kicser\u00e9li a megfelel\u0151 ellent\u00e9tes sz\u00f3ra.\n5. V\u00e9g\u00fcl a program visszaadja a m\u00f3dos\u00edtott sz\u00f6veget a kicser\u00e9lt szavakkal.\nPr\u00f3b\u00e1ra tenn\u00e9d a term\u00e9szetes nyelvfeldolgoz\u00e1si k\u00e9pess\u00e9geidet, hogy azonos\u00edtsd a m\u00f3dos\u00edtott sz\u00f6vegben haszn\u00e1lt ellent\u00e9teket?" } } } ], "suggestions": [ { "agent": null, "question_name": "target", "score": null, "type": null, "value": "A programot az emberi nyelv meg\u00e9rt\u00e9s\u00e9re alkalmas programok l\u00e9trehoz\u00e1sa szereti. Az utols\u00f3 projektje olyan program l\u00e9trehoz\u00e1sa, amely k\u00e9pes azonos\u00edtani \u00e9s helyettes\u00edteni a szavakat az ant\u00f3nimusaival egy adott sz\u00f6vegben. A program hat\u00e9konys\u00e1g\u00e1nak bemutat\u00e1sa \u00e9rdek\u00e9ben \u00fagy d\u00f6nt, hogy egy k\u00f6zelm\u00faltbeli politikai esem\u00e9nyr\u0151l sz\u00f3l\u00f3 h\u00edr cikkben tesztelj\u00fck. De hogy kih\u00edv\u00e1st jelentse, azt is szeretn\u00e9, hogy a program hom\u00f3nimokat k\u00fcl\u00f6nb\u00f6ztesse meg \u00e9s \u00f6sszef\u00fcgg\u00e9si nyomokat haszn\u00e1ljon, hogy helyesen helyettes\u00edts\u00e9k \u0151ket. Itt egy l\u00e9p\u00e9sr\u0151l l\u00e9p\u00e9sre magyar\u00e1zata annak, hogyan m\u0171k\u00f6dik a program: 1. A program olvasja a beutazott sz\u00f6veget \u00e9s azonos\u00edtja az \u00f6sszes ant\u00f3nimusaival rendelkez\u0151 sz\u00f3t. 2. Mindegyik sz\u00f3 eset\u00e9ben a program azonos\u00edtja azt a kontextust, amelyben \u00fagy t\u0171nik, hogy meghat\u00e1rozza az eredeti ant\u00f3nim\u00e1t, amelyet haszn\u00e1lni kell. 3. A program a sz\u00f6vegben" } ], "vectors": {} } ``` While the same record in HuggingFace `datasets` looks as follows: ```json { "external_id": "9999", "metadata": "{\"evolved_from\": null, \"kind\": \"synthetic\", \"source\": \"evol_instruct\"}", "source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. \nTo demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them.\nHere\u0027s a step-by-step explanation of how your program works:\n1. The program reads the input text and identifies all the words that have antonyms.\n2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use.\n3. The program then replaces the original word with its antonym in the text.\n4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym.\n5. Finally, the program outputs the modified text with the replaced words.\nCan you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?", "target": [ { "status": "submitted", "user_id": "d2d0ad53-12ef-4d3f-84c5-df3afb2b2699", "value": "Mint mesters\u00e9ges intelligencia rajong\u00f3, szeretsz olyan programokat k\u00e9sz\u00edteni, amelyek k\u00e9pesek meg\u00e9rteni az emberi nyelvet. Leg\u00fajabb projekted egy olyan program fejleszt\u00e9se, amely k\u00e9pes felismerni \u00e9s kicser\u00e9lni a szavakat azok ellent\u00e9teire egy adott sz\u00f6vegben.\nAnnak \u00e9rdek\u00e9ben, hogy bemutasd a program hat\u00e9konys\u00e1g\u00e1t, \u00fagy d\u00f6ntesz, hogy teszteled azt egy \u00fajs\u00e1gcikken, amely egy nemr\u00e9giben t\u00f6rt\u00e9nt politikai esem\u00e9nyr\u0151l sz\u00f3l. Azonban, hogy m\u00e9g nagyobb kih\u00edv\u00e1st jelentsen, azt is szeretn\u00e9d, ha a program megk\u00fcl\u00f6nb\u00f6ztetn\u00e9 a homonim\u00e1kat \u00e9s a kontextus alapj\u00e1n helyesen cser\u00e9ln\u00e9 ki azokat.\n\u00cdme, egy l\u00e9p\u00e9sr\u0151l-l\u00e9p\u00e9sre le\u00edr\u00e1s a program m\u0171k\u00f6d\u00e9s\u00e9r\u0151l:\n1. A program beolvassa a bemeneti sz\u00f6veget \u00e9s azonos\u00edt minden olyan sz\u00f3t, amelynek van ellent\u00e9te.\n2. Minden ilyen sz\u00f3 eset\u00e9n a program azonos\u00edtja a kontextust, amelyben megjelennek, hogy meghat\u00e1rozza a helyes ellent\u00e9tes sz\u00f3t, amit haszn\u00e1lni kell.\n3. A program ezut\u00e1n kicser\u00e9li az eredeti sz\u00f3t annak ellentetj\u00e9re a sz\u00f6vegben.\n4. Ha az eredeti sz\u00f3nak t\u00f6bb jelent\u00e9se is van, a program a kontextust haszn\u00e1lja annak meghat\u00e1roz\u00e1s\u00e1ra, hogy melyik jelent\u00e9s \u00e9rtend\u0151, \u00e9s kicser\u00e9li a megfelel\u0151 ellent\u00e9tes sz\u00f3ra.\n5. V\u00e9g\u00fcl a program visszaadja a m\u00f3dos\u00edtott sz\u00f6veget a kicser\u00e9lt szavakkal.\nPr\u00f3b\u00e1ra tenn\u00e9d a term\u00e9szetes nyelvfeldolgoz\u00e1si k\u00e9pess\u00e9geidet, hogy azonos\u00edtsd a m\u00f3dos\u00edtott sz\u00f6vegben haszn\u00e1lt ellent\u00e9teket?" } ], "target-suggestion": "A programot az emberi nyelv meg\u00e9rt\u00e9s\u00e9re alkalmas programok l\u00e9trehoz\u00e1sa szereti. Az utols\u00f3 projektje olyan program l\u00e9trehoz\u00e1sa, amely k\u00e9pes azonos\u00edtani \u00e9s helyettes\u00edteni a szavakat az ant\u00f3nimusaival egy adott sz\u00f6vegben. A program hat\u00e9konys\u00e1g\u00e1nak bemutat\u00e1sa \u00e9rdek\u00e9ben \u00fagy d\u00f6nt, hogy egy k\u00f6zelm\u00faltbeli politikai esem\u00e9nyr\u0151l sz\u00f3l\u00f3 h\u00edr cikkben tesztelj\u00fck. De hogy kih\u00edv\u00e1st jelentse, azt is szeretn\u00e9, hogy a program hom\u00f3nimokat k\u00fcl\u00f6nb\u00f6ztesse meg \u00e9s \u00f6sszef\u00fcgg\u00e9si nyomokat haszn\u00e1ljon, hogy helyesen helyettes\u00edts\u00e9k \u0151ket. Itt egy l\u00e9p\u00e9sr\u0151l l\u00e9p\u00e9sre magyar\u00e1zata annak, hogyan m\u0171k\u00f6dik a program: 1. A program olvasja a beutazott sz\u00f6veget \u00e9s azonos\u00edtja az \u00f6sszes ant\u00f3nimusaival rendelkez\u0151 sz\u00f3t. 2. Mindegyik sz\u00f3 eset\u00e9ben a program azonos\u00edtja azt a kontextust, amelyben \u00fagy t\u0171nik, hogy meghat\u00e1rozza az eredeti ant\u00f3nim\u00e1t, amelyet haszn\u00e1lni kell. 3. A program a sz\u00f6vegben", "target-suggestion-metadata": { "agent": null, "score": null, "type": null } } ``` ### Data Fields Among the dataset fields, we differentiate between the following: * **Fields:** These are the dataset records themselves, for the moment just text fields are supported. These are the ones that will be used to provide responses to the questions. * **source** is of type `text`. * **Questions:** These are the questions that will be asked to the annotators. They can be of different types, such as `RatingQuestion`, `TextQuestion`, `LabelQuestion`, `MultiLabelQuestion`, and `RankingQuestion`. * **target** is of type `text`, and description "Translate the text.". * **Suggestions:** As of Argilla 1.13.0, the suggestions have been included to provide the annotators with suggestions to ease or assist during the annotation process. Suggestions are linked to the existing questions, are always optional, and contain not just the suggestion itself, but also the metadata linked to it, if applicable. * (optional) **target-suggestion** is of type `text`. Additionally, we also have two more fields that are optional and are the following: * **metadata:** This is an optional field that can be used to provide additional information about the dataset record. This can be useful to provide additional context to the annotators, or to provide additional information about the dataset record itself. For example, you can use this to provide a link to the original source of the dataset record, or to provide additional information about the dataset record itself, such as the author, the date, or the source. The metadata is always optional, and can be potentially linked to the `metadata_properties` defined in the dataset configuration file in `argilla.yaml`. * **external_id:** This is an optional field that can be used to provide an external ID for the dataset record. This can be useful if you want to link the dataset record to an external resource, such as a database or a file. ### Data Splits The dataset contains a single split, which is `train`. ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation guidelines This is a translation dataset that contains texts. Please translate the text in the text field. #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions [More Information Needed]

# MPEP_HUNGARIAN 数据集卡片 本数据集基于[Argilla](https://docs.argilla.io)构建。 如下文各章节所述,本数据集可按照[通过Argilla加载](#load-with-argilla)中的说明加载至Argilla,也可通过[通过`datasets`库加载](#load-with-datasets)中的方式直接结合`datasets`库使用。 ## 数据集描述 - **主页:** https://argilla.io - **代码仓库:** https://github.com/argilla-io/argilla - **论文:** - **排行榜:** - **联系人:** ### 数据集概览 本数据集包含以下内容: * 符合Argilla数据集格式的配置文件`argilla.yaml`。该配置文件将在Argilla中使用`FeedbackDataset.from_huggingface`方法加载数据集时,用于配置数据集。 * 兼容HuggingFace `datasets`的数据集记录。当使用`FeedbackDataset.from_huggingface`时,这些记录将自动加载;也可通过`datasets`库的`load_dataset`方法独立加载。 * 用于构建与整理本数据集的[标注指南](#annotation-guidelines)(若已在Argilla中完成定义)。 ### 通过Argilla加载 通过Argilla加载本数据集时,仅需执行`pip install argilla --upgrade`安装并升级Argilla,然后运行以下代码: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_HUNGARIAN") ### 通过`datasets`库加载 通过`datasets`库加载本数据集时,仅需执行`pip install datasets --upgrade`安装并升级`datasets`库,然后运行以下代码: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_HUNGARIAN") ### 支持的任务与排行榜 本数据集包含[多个字段、问题与回复](https://docs.argilla.io/en/latest/conceptual_guides/data_model.html#feedback-dataset),因此可根据配置用于多种自然语言处理任务。数据集结构详见[数据集结构章节](#dataset-structure)。本数据集暂无关联排行榜。 ### 语言 [需补充更多信息] ## 数据集结构 ### Argilla中的数据 本数据集在Argilla中通过以下元素构建:**字段(fields)**、**问题(questions)**、**建议(suggestions)**、**元数据(metadata)**、**向量(vectors)**以及**指南(guidelines)**。 **字段**即数据集记录本身,目前仅支持文本字段。这些字段将用于为标注者提出的问题提供回复。 | 字段名 | 标题 | 类型 | 必填项 | 支持Markdown | | ---------- | ----- | ---- | -------- | -------- | | source | 源文本 | text | 是 | 是 | **问题**即向标注者提出的查询,支持多种类型,包括评分、文本、标签选择、多标签选择以及排序任务。 | 问题名 | 标题 | 类型 | 必填项 | 描述 | 取值/标签 | | ------------- | ----- | ---- | -------- | ----------- | ------------- | | target | 目标 | text | 是 | 翻译该文本。 | N/A | **建议**是为辅助标注者完成标注流程,由人工或模型生成的针对各问题的推荐结果。此类建议始终与现有问题关联,其列名会追加`-suggestion`后缀,其元数据则追加`-suggestion-metadata`后缀,分别存储建议内容及其元数据。可选值与上表一致,但列名需追加`-suggestion`后缀,元数据列名追加`-suggestion-metadata`后缀。 **元数据**是可用于提供数据集记录附加信息的字典。该字段可用于向标注者提供额外上下文,或是为数据集记录本身补充更多信息,例如指向数据集记录原始来源的链接、作者、日期或来源渠道等。元数据为可选字段,可与`argilla.yaml`中数据集配置文件定义的`metadata_properties`关联。 | 元数据字段名 | 标题 | 类型 | 取值 | 对标注者可见 | | ------------- | ----- | ---- | ------ | ---------------------- | **指南**同样为可选字段,是用于向标注者提供操作说明的纯文本字符串,详见[标注指南](#annotation-guidelines)章节。 ### 数据实例 Argilla中的一条数据集示例如以下JSON所示: json { "external_id": "9999", "fields": { "source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. To demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them. Here's a step-by-step explanation of how your program works: 1. The program reads the input text and identifies all the words that have antonyms. 2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use. 3. The program then replaces the original word with its antonym in the text. 4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym. 5. Finally, the program outputs the modified text with the replaced words. Can you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?" }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "evol_instruct" }, "responses": [ { "status": "submitted", "user_id": "d2d0ad53-12ef-4d3f-84c5-df3afb2b2699", "values": { "target": { "value": "Mint mesterséges intelligencia rajongó, szeretsz olyan programokat készíteni, amelyek képes megérteni az emberi nyelvet. Legújabb projekted egy olyan program fejlesztése, amely képes felismerni és kicserélni a szavakat azok ellentéteire egy adott szövegben. Annak érdekében, hogy bemutasd a program hatékonyságát, úgy döntesz, hogy teszteled azt egy újságcikk, amely egy nemrégiben történt politikai eseményről szól. Azonban, hogy még nagyobb kihívást jelentsen, azt is szeretnéd, ha a program megkülönböztetné a homonimákat és a kontextus alapján helyesen cserélné ki azokat. Íme, egy lépésről-lépésre leírás a program működéséről: 1. A program beolvassa a bemeneti szöveget és azonosít minden olyan szót, amelynek van ellentéte. 2. Minden ilyen szó esetében a program azonosítja a kontextust, amelyben megjelennek, hogy meghatározza a helyes ellentétes szót, amit használni kell. 3. A program ezután kicseréli az eredeti szót annak ellentetjére a szövegben. 4. Ha az eredeti szónak több jelentése is van, a program a kontextust használja annak meghatározására, hogy melyik jelentés értendő, és kicseréli a megfelelő ellentétes szóra. 5. Végül a program visszaadja a módosított szöveget a kicserélt szavakkal. Próbára tennéd a természetes nyelvfeldolgozási képességeidet, hogy azonosítsd a módosított szövegben használt ellentéteteket?" } } } ], "suggestions": [ { "agent": null, "question_name": "target", "score": null, "type": null, "value": "A programot az emberi nyelv megértésére alkalmas programok létrehozása szereti. Az utolsó projektje olyan program létrehozása, amely képes azonosítani és helyettesíteni a szavakat az antónimusaival egy adott szövegben. A program hatékonyságának bemutatása érdekében úgy dönt, hogy egy közelmúltbeli politikai eseményről szóló hír cikkben teszteljük. De hogy kihívást jelentse, azt is szeretné, hogy a program homónimokat különböztsen meg és összefüggési nyomokat használjon, hogy helyesen helyettesítsék őket. Itt egy lépésről lépésre magyarázata annak, hogyan működik a program: 1. A program olvassa a beutazott szöveget és azonosítja az összes antónimusaival rendelkező szót. 2. Mindegyik szó esetében a program azonosítja azt a kontextust, amelyben úgy tűnik, hogy meghatározza az eredeti antónimát, amelyet használni kell. 3. A program a szövegben" } ], "vectors": {} } 该数据集记录在HuggingFace `datasets`中的对应形式如下所示: json { "external_id": "9999", "metadata": "{"evolved_from": null, "kind": "synthetic", "source": "evol_instruct"}", "source": "As an AI enthusiast, you love creating programs that can understand human language. Your latest project involves creating a program that can identify and replace words with their antonyms in a given text. To demonstrate the effectiveness of your program, you decide to test it on a news article about a recent political event. However, to make it more challenging, you also want your program to differentiate between homonyms and use context clues to correctly replace them. Here's a step-by-step explanation of how your program works: 1. The program reads the input text and identifies all the words that have antonyms. 2. For each of these words, the program identifies the context in which it appears to determine the correct antonym to use. 3. The program then replaces the original word with its antonym in the text. 4. If the original word has multiple meanings, the program uses the context to determine which meaning is intended and replace it with the appropriate antonym. 5. Finally, the program outputs the modified text with the replaced words. Can you put your natural language processing skills to the test and try to identify the antonyms used in the modified text?", "target": [ { "status": "submitted", "user_id": "d2d0ad53-12ef-4d3f-84c5-df3afb2b2699", "value": "Mint mesterséges intelligencia rajongó, szeretsz olyan programokat készíteni, amelyek képes megérteni az emberi nyelvet. Legújabb projekted egy olyan program fejlesztése, amely képes felismerni és kicserélni a szavakat azok ellentéteire egy adott szövegben. Annak érdekében, hogy bemutasd a program hatékonyságát, úgy döntesz, hogy teszteled azt egy újságcikk, amely egy nemrégiben történt politikai eseményről szól. Azonban, hogy még nagyobb kihívást jelentsen, azt is szeretnéd, ha a program megkülönböztetné a homonimákat és a kontextus alapján helyesen cserélné ki azokat. Íme, egy lépésről-lépésre leírás a program működéséről: 1. A program beolvassa a bemeneti szöveget és azonosít minden olyan szót, amelynek van ellentéte. 2. Minden ilyen szó esetében a program azonosítja a kontextust, amelyben megjelennek, hogy meghatározza a helyes ellentétes szót, amit használni kell. 3. A program ezután kicseréli az eredeti szót annak ellentetjére a szövegben. 4. Ha az eredeti szónak több jelentése is van, a program a kontextust használja annak meghatározására, hogy melyik jelentés értendő, és kicseréli a megfelelő ellentétes szóra. 5. Végül a program visszaadja a módosított szöveget a kicserélt szavakkal. Próbára tennéd a természetes nyelvfeldolgozási képességeidet, hogy azonosítsd a módosított szövegben használt ellentéteteket?" } ], "target-suggestion": "A programot az emberi nyelv megértésére alkalmas programok létrehozása szereti. Az utolsó projektje olyan program létrehozása, amely képes azonosítani és helyettesíteni a szavakat az antónimusaival egy adott szövegben. A program hatékonyságának bemutatása érdekében úgy dönt, hogy egy közelmúltbeli politikai eseményről szóló hír cikkben teszteljük. De hogy kihívást jelentse, azt is szeretné, hogy a program homónimokat különböztsen meg és összefüggési nyomokat használjon, hogy helyesen helyettesítsék őket. Itt egy lépésről lépésre magyarázata annak, hogyan működik a program: 1. A program olvassa a beutazott szöveget és azonosítja az összes antónimusaival rendelkező szót. 2. Mindegyik szó esetében a program azonosítja azt a kontextust, amelyben úgy tűnik, hogy meghatározza az eredeti antónimát, amelyet használni kell. 3. A program a szövegben", "target-suggestion-metadata": { "agent": null, "score": null, "type": null } } ### 数据字段 在数据集的各类字段中,我们可分为以下几类: * **字段:** 即数据集记录本身,目前仅支持文本字段,用于为标注问题提供回复。 * **source**:类型为`text`的源文本字段。 * **问题:** 即向标注者提出的查询,支持`RatingQuestion`(评分问题)、`TextQuestion`(文本问题)、`LabelQuestion`(单标签选择问题)、`MultiLabelQuestion`(多标签选择问题)以及`RankingQuestion`(排序问题)等多种类型。 * **target**:类型为`text`的问题,描述为“翻译该文本。” * **建议:** 自Argilla 1.13.0版本起,新增建议字段用于在标注流程中为标注者提供辅助参考。建议始终与现有问题关联,为可选字段,不仅包含建议内容本身,还可附带关联的元数据(若存在)。 * (可选)**target-suggestion**:类型为`text`的建议字段。 此外,本数据集还包含以下两个可选字段: * **元数据(metadata):** 该可选字段可用于提供数据集记录的附加信息,例如指向原始来源的链接、作者、日期或来源渠道等,可为标注者提供额外上下文,或是补充数据集记录本身的相关信息。元数据为可选字段,可与`argilla.yaml`数据集配置文件中定义的`metadata_properties`关联。 * **外部ID(external_id):** 该可选字段可用于为数据集记录分配外部ID,便于将数据集记录与外部资源(如数据库或文件)进行关联。 ### 数据划分 本数据集仅包含一个划分,即`train`(训练集)。 ## 数据集构建 ### 整理依据 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 源语言生产者是谁? [需补充更多信息] ### 标注 #### 标注指南 本数据集为翻译数据集,包含文本内容。请将文本字段中的文本翻译为目标语言。 #### 标注流程 [需补充更多信息] #### 标注者是谁? [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 补充信息 ### 数据集整理者 [需补充更多信息] ### 授权信息 [需补充更多信息] ### 引用信息 [需补充更多信息] ### 贡献 [需补充更多信息]
提供机构:
maas
创建时间:
2025-07-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作