DIBT/10k-prompt-collective-argilla-format
收藏数据集卡片 for 10k-prompt-collective-argilla
数据集描述
- 主页: https://argilla.io
- 仓库: https://github.com/argilla-io/argilla
- 论文:
- 排行榜:
- 联系点:
数据集概述
该数据集包含:
-
符合 Argilla 数据集格式的数据集配置文件
argilla.yaml。该配置文件将在使用 Argilla 的FeedbackDataset.from_huggingface方法时用于配置数据集。 -
与 HuggingFace
datasets兼容的数据集记录。这些记录在使用FeedbackDataset.from_huggingface时会自动加载,也可以通过datasets库独立加载。 -
用于构建和整理数据集的标注指南,如果已在 Argilla 中定义。
加载方式
使用 Argilla 加载
安装 Argilla 后,使用以下代码加载数据集:
python import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("DIBT/10k-prompt-collective-argilla")
使用 datasets 加载
安装 datasets 后,使用以下代码加载数据集:
python from datasets import load_dataset
ds = load_dataset("DIBT/10k-prompt-collective-argilla")
支持的任务和排行榜
该数据集可以包含多个字段、问题和响应,因此可以用于不同的 NLP 任务,具体取决于配置。数据集结构在数据集结构部分中描述。
该数据集没有关联的排行榜。
语言
[更多信息需要]
数据集结构
数据在 Argilla 中
数据集在 Argilla 中创建,包含:字段、问题、建议、元数据、向量和指南。
字段是数据集记录本身,目前仅支持文本字段。这些字段将用于提供对问题的响应。
| 字段名称 | 标题 | 类型 | 必需 | Markdown |
|---|---|---|---|---|
| prompt | Prompt | text | True | True |
问题是向标注者提出的问题。它们可以是不同类型,如评分、文本、标签选择、多标签选择或排序。
| 问题名称 | 标题 | 类型 | 必需 | 描述 | 值/标签 |
|---|---|---|---|---|---|
| quality | Rate the quality of the prompt | label_selection | True | N/A | [0, 1, 2, 3, 4] |
建议是人为或机器生成的推荐,用于在标注过程中协助标注者。这些建议总是与现有问题相关联,并在名称后附加“-suggestion”和“-suggestion-metadata”,包含建议的值及其元数据。
元数据是一个字典,用于提供有关数据集记录的额外信息。这可以用于向标注者提供额外的上下文,或提供有关数据集记录本身的额外信息。元数据总是可选的,并且可以与 argilla.yaml 中定义的 metadata_properties 相关联。
指南是可选的,只是一个纯字符串,用于向标注者提供指令。可以在标注指南部分找到。
数据实例
在 Argilla 中的数据集实例示例如下:
json { "external_id": null, "fields": { "prompt": "Provide step-by-step instructions on how to make a safe and effective homemade all-purpose cleaner from common household ingredients. The guide should include measurements, tips for storing the cleaner, and additional variations or scents that can be added. Additionally, the guide should be written in clear and concise language, with helpful visuals or photographs to aid in the process." }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "ultrachat" }, "responses": [ { "status": "submitted", "user_id": "d23b12c2-b601-490e-b5b3-2040eb393a00", "values": { "quality": { "value": "4" } } }, { "status": "submitted", "user_id": "e2bdd868-f28e-46fc-9254-a6ec1e291889", "values": { "quality": { "value": "4" } } } ], "suggestions": [], "vectors": {} }
在 HuggingFace datasets 中的相同记录示例如下:
json { "external_id": null, "metadata": "{"source": "ultrachat", "kind": "synthetic", "evolved_from": null}", "prompt": "Provide step-by-step instructions on how to make a safe and effective homemade all-purpose cleaner from common household ingredients. The guide should include measurements, tips for storing the cleaner, and additional variations or scents that can be added. Additionally, the guide should be written in clear and concise language, with helpful visuals or photographs to aid in the process.", "quality": [ { "status": "submitted", "user_id": "d23b12c2-b601-490e-b5b3-2040eb393a00", "value": "4" }, { "status": "submitted", "user_id": "e2bdd868-f28e-46fc-9254-a6ec1e291889", "value": "4" } ], "quality-suggestion": null, "quality-suggestion-metadata": { "agent": null, "score": null, "type": null } }
数据字段
数据集字段包括:
-
字段: 这些是数据集记录本身,目前仅支持文本字段。这些字段将用于提供对问题的响应。
- prompt 是类型
text。
- prompt 是类型
-
问题: 这些是向标注者提出的问题。它们可以是不同类型,如
RatingQuestion、TextQuestion、LabelQuestion、MultiLabelQuestion和RankingQuestion。- quality 是类型
label_selection,允许的值为 [0, 1, 2, 3, 4]。
- quality 是类型
-
建议: 从 Argilla 1.13.0 开始,建议已包含在内,以向标注者提供建议,以简化或协助标注过程。建议与现有问题相关联,总是可选的,并且不仅包含建议本身,还包含其相关元数据(如果适用)。
- (可选) quality-suggestion 是类型
label_selection,允许的值为 [0, 1, 2, 3, 4]。
- (可选) quality-suggestion 是类型
此外,还有两个可选字段:
- metadata: 这是一个可选字段,用于提供有关数据集记录的额外信息。这可以用于向标注者提供额外的上下文,或提供有关数据集记录本身的额外信息。例如,可以使用此字段提供数据集记录的原始来源链接,或提供有关数据集记录本身的额外信息,如作者、日期或来源。元数据总是可选的,并且可以与
argilla.yaml中定义的metadata_properties相关联。 - external_id: 这是一个可选字段,用于为数据集记录提供外部 ID。如果希望将数据集记录与外部资源(如数据库或文件)相关联,这可能很有用。
数据分割
数据集包含一个分割,即 train。
数据集创建
整理理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者
[更多信息需要]
标注
标注指南
我们的目标是共同创建一个英语提示数据库。以下标注指南应帮助您开始,您也可以在 Discord 频道 中提问。
我们的目标是识别有效的提示并理解 AI 生成和人类生成提示之间的交互。
重点是评估清晰、有趣和复杂的提示,以便微调开源大型语言模型。
一个好的提示是什么样的?
这是一个困难的问题,但以下是一些方面:
- 用户的意图是明确的。
- 向助手提出的问题、指令或任务具有挑战性或有趣,因为它涉及解决复杂问题、推理、创造性等。
换句话说,首先意图(用户询问的内容)应该是明确的。然后我们可以考虑任务的有趣程度和复杂性。提示越有趣,评分应该越高。
指南
您需要为每个提示分配一个评分,考虑助手的复杂性和意图的清晰性。一个非常好的提示是既具有挑战性又非常清晰地表达了用户的意图。
您可以使用键盘快捷键(数字)来快速评分示例。
如果您发现某种模式,也可以使用搜索框和过滤器以及批量标注模式,请谨慎使用,并且只有在发现清晰模式时才使用(例如,完全不正确的提示并共享一个常见问题)。
如果您不确定您的答案,可以点击标签,然后“保存为草稿”以稍后保存。如果您觉得无法对某个特定提示进行评分,可以使用“丢弃”按钮。
评分
1. 非常差:
提示没有传达其目的,是无意义的或使用非英语语言。
提示假设使用了不适用于此模型的工具或能力,如生成图像或抓取网站。
示例:
"Do the thing." “Hello!” "asdajflajfada” “Quiero que redactes una entrada de blog.” "Extract data from a website.” “Tell me how you feel when someone insults you.”
2. 差:
提出了一个目标,但缺乏清晰性和连贯性。
示例:
"Find me stuff about that thing, you know?" “Write something.” "Tell me about this thing." "Can you help with this?" "I need to know more."
3. 一般:
意图是可理解的,但缺少完成任务的信息。
示例:
"I need information on something important." “Write a blogpost.”
4. 好:
提出了一个清晰的目标和必要的信息,有效地指导了 AI,但提示可以更具体。
示例:
"Provide a summary of renewable energy sources." “Tell me about Sean Connery.” "Explain global warming."
5. 非常好:
全面且明确,没有留下任何歧义。完美地指导了 AI 并包含了细节。
示例:
"Compare the efficiency and environmental impact of solar and wind energy, including recent advancements and case studies from 2023." “Make a list of 5 plant-based recipes that I can try that don’t have red peppers as an ingredient.”
标注过程
[更多信息需要]
标注者
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的考虑
数据集的社会影响
[更多信息需要]
讨论偏见
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
[更多信息需要]



