vishnuramov/itu_annotated_dataset
收藏数据集卡片 for itu_annotated_dataset
数据集描述
数据集概述
该数据集包含:
- 符合 Argilla 数据集格式的配置文件
argilla.yaml,用于在使用 Argilla 的FeedbackDataset.from_huggingface方法时配置数据集。 - 与 HuggingFace
datasets兼容的数据集记录,这些记录在使用FeedbackDataset.from_huggingface时会自动加载,也可以通过datasets库独立加载。 - 用于构建和整理数据集的标注指南(如果已在 Argilla 中定义)。
加载方式
使用 Argilla 加载
安装 Argilla:
bash pip install argilla --upgrade
加载数据集:
python import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("vishnuramov/itu_annotated_dataset")
使用 datasets 加载
安装 datasets:
bash pip install datasets --upgrade
加载数据集:
python from datasets import load_dataset
ds = load_dataset("vishnuramov/itu_annotated_dataset")
支持的任务和排行榜
该数据集可以包含多个字段、问题和响应,因此可以用于不同的 NLP 任务,具体取决于配置。数据集结构在数据集结构部分中描述。
该数据集没有关联的排行榜。
语言
[更多信息需要]
数据集结构
数据在 Argilla 中
数据集在 Argilla 中创建,包含以下内容:字段、问题、建议、元数据、向量和指南。
字段
| 字段名称 | 标题 | 类型 | 必填 | Markdown |
|---|---|---|---|---|
| background | Background | text | True | False |
| prompt | Prompt | text | True | False |
| response | Final Response | text | True | False |
问题
| 问题名称 | 标题 | 类型 | 必填 | 描述 | 值/标签 |
|---|---|---|---|---|---|
| response_correction | Response_correction | text | True | N/A | N/A |
建议
建议是人为或机器生成的推荐,用于在标注过程中辅助标注者。这些建议总是与现有问题相关联,并在名称中附加 "-suggestion" 和 "-suggestion-metadata",分别包含建议的值及其元数据。
元数据
元数据是一个字典,用于提供有关数据集记录的额外信息。这可以用于向标注者提供额外上下文,或提供有关数据集记录本身的额外信息。元数据总是可选的,并且可以与 argilla.yaml 中定义的 metadata_properties 相关联。
指南
指南是可选的,只是一个用于向标注者提供指令的纯字符串。可以在标注指南部分中找到。
数据实例
在 Argilla 中的数据实例示例:
json { "external_id": null, "fields": { "background": "Background: ITU has published Use cases for Autonomous Networks. ITU focus group on autonomous networks studies the use cases and ITU-T SG13 has published many use cases on autonomous networks. These use cases are categorised into two main categories depending on whether they are related to application of autonomous networks or related to the core concepts of autonomous networks.", "prompt": "u003chumanu003e: who publishes use cases for autonomous networks?", "response": "u003cbotu003e: ITU publishes use cases for autonomous networks based on the work of ITU focus group on autonomous networks and ITU-T SG13." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }
在 HuggingFace datasets 中的数据实例示例:
json { "background": "Background: ITU has published Use cases for Autonomous Networks. ITU focus group on autonomous networks studies the use cases and ITU-T SG13 has published many use cases on autonomous networks. These use cases are categorised into two main categories depending on whether they are related to application of autonomous networks or related to the core concepts of autonomous networks.", "external_id": null, "metadata": "{}", "prompt": "u003chumanu003e: who publishes use cases for autonomous networks?", "response": "u003cbotu003e: ITU publishes use cases for autonomous networks based on the work of ITU focus group on autonomous networks and ITU-T SG13.", "response_correction": [], "response_correction-suggestion": null, "response_correction-suggestion-metadata": { "agent": null, "score": null, "type": null } }
数据字段
数据集字段包括:
-
字段:这些是数据集记录本身,目前仅支持文本字段。这些字段将用于提供问题的响应。
- background 类型为
text。 - prompt 类型为
text。 - response 类型为
text。
- background 类型为
-
问题:这些问题将向标注者提出。它们可以是不同类型,如
RatingQuestion、TextQuestion、LabelQuestion、MultiLabelQuestion和RankingQuestion。- response_correction 类型为
text。
- response_correction 类型为
-
建议:自 Argilla 1.13.0 起,建议已包含在内,以向标注者提供建议,以简化或辅助标注过程。建议与现有问题相关联,总是可选的,并且不仅包含建议本身,还包含其相关元数据(如果适用)。
- (可选)response_correction-suggestion 类型为
text。
- (可选)response_correction-suggestion 类型为
此外,还有两个可选字段:
- 元数据:这是一个可选字段,用于提供有关数据集记录的额外信息。这可以用于向标注者提供额外上下文,或提供有关数据集记录本身的额外信息。元数据总是可选的,并且可以与
argilla.yaml中定义的metadata_properties相关联。 - external_id:这是一个可选字段,用于为数据集记录提供外部 ID。如果需要将数据集记录与外部资源(如数据库或文件)关联,这可能很有用。
数据分割
数据集包含一个单一分割,即 train。



