10k_prompts_ranked

github2024-03-13 更新2024-05-31 收录

下载链接：

https://github.com/huggingface/data-is-better-together

下载链接

链接失效反馈

官方服务：

资源简介：

10k_prompts_ranked is a dataset of prompts with quality rankings created by 314 members of the open-source ML community using Argilla, an open-source tool to label data. The prompts in this dataset include both synthetic and human-generated prompts sourced from a variety of heavily used datasets that include prompts.

10k_prompts_ranked 是一款带有质量排序的提示词（prompt）数据集，由开源机器学习社区的314名成员借助开源数据标注工具Argilla构建完成。该数据集收录的提示词涵盖合成生成与人工生成两种类型，其来源覆盖了多款被广泛使用的提示词数据集。

创建时间：

2024-03-11

原始信息汇总

数据集概述

社区努力

提示排名项目
- 目标: 创建一个包含10,000个提示的排名数据集，这些提示来自合成和人类生成的各种数据集。
- 方法: 使用Argilla在Hugging Face Space准备数据集，邀请社区成员根据质量对提示进行排名。
- 结果: 超过385人参与，发布了DIBT/10k_prompts_ranked数据集。
多语言提示评估项目（MPEP）
- 目标: 创建多语言的模型性能评估基准。
- 方法: 从DIBT/10k_prompts_ranked中选择500个高质量提示，并邀请社区成员将其翻译成不同语言。
- 结果: 成功翻译了荷兰语和俄语，西班牙语接近完成，其他多种语言也参与了此项目。

食谱努力

领域特定数据集
- 目标: 创建工具帮助用户与领域专家合作，以启动更多领域特定数据集的创建。
DPO/ORPO数据集
- 目标: 促进社区为不同语言构建更多DPO风格的数据集。
KTO数据集
- 目标: 帮助社区创建自己的KTO数据集，这是一种基于简单二元偏好的数据集。

搜集汇总

数据集介绍

构建方式

10k_prompts_ranked数据集的构建过程充分体现了社区协作的力量。首先，项目团队通过Argilla平台在Hugging Face Space中准备了一个包含10,000条提示的数据集，这些提示既包括合成数据，也包含来自不同数据集的人工生成内容。随后，团队邀请社区成员根据提示的质量进行排序。最终，收集并整合了385名参与者的标注结果，发布了这一数据集。整个过程不仅依赖于技术工具的支持，更得益于社区成员的积极参与。

特点

10k_prompts_ranked数据集的核心特点在于其多样性和高质量的标注。数据集涵盖了广泛的提示类型，包括合成和人工生成的内容，确保了数据的丰富性。通过社区成员的集体智慧，每条提示都经过质量排序，使得用户能够轻松筛选出高质量的提示。此外，该数据集还支持多种任务，如提示排序和合成数据生成，为自然语言处理领域的研究提供了宝贵的资源。

使用方法

使用10k_prompts_ranked数据集时，用户可以根据需求筛选高质量的提示，并将其应用于不同的任务中。例如，在提示排序任务中，用户可以利用数据集中的标注信息评估提示的质量；在合成数据生成任务中，用户可以选择高质量的提示作为输入，生成更优质的输出。此外，数据集还支持模型训练和评估，用户可以在Hugging Face平台上找到基于该数据集训练的模型，进一步扩展其应用场景。

背景与挑战

背景概述

在自然语言处理领域，提示词（prompt）的质量直接影响模型生成结果的有效性与准确性。2023年，Hugging Face、Argilla与开源机器学习社区共同发起了‘Data is Better Together’项目，旨在通过社区协作构建高质量数据集。作为该项目的一部分，10k_prompts_ranked数据集应运而生，其核心目标是通过社区参与对10,000条提示词进行质量排序，涵盖合成与人工生成的提示词。该数据集的创建不仅为提示词排序任务提供了基准，还为合成数据生成任务提供了重要支持。通过385名社区成员的共同努力，该数据集成功发布，并在多语言提示词评估项目（MPEP）中发挥了关键作用。

当前挑战

10k_prompts_ranked数据集的构建面临多重挑战。首先，提示词质量的评估具有主观性，不同参与者对‘高质量’的理解可能存在差异，这可能导致排序结果的不一致性。其次，数据集的规模较大，涉及10,000条提示词的收集与排序，这对社区协作的组织与协调提出了较高要求。此外，如何确保合成提示词与人工生成提示词在质量评估中的公平性，也是一个亟待解决的问题。在构建过程中，团队通过Argilla平台与Hugging Face Space的结合，成功实现了大规模社区标注，但仍需进一步优化评估标准与流程，以提升数据集的可靠性与实用性。

常用场景

经典使用场景

在自然语言处理领域，10k_prompts_ranked数据集被广泛应用于提示词质量评估和生成任务。该数据集包含了10,000条经过社区排名的提示词，涵盖了合成和人工生成的内容。研究人员可以通过过滤高质量提示词，进一步生成相应的补全文本，从而优化语言模型的输出效果。此外，该数据集还被用于多语言提示词翻译项目，帮助构建跨语言的基准测试集。

衍生相关工作

10k_prompts_ranked数据集衍生了一系列经典研究工作，其中最著名的是多语言提示词评估项目（MPEP）。该项目利用该数据集中的高质量提示词，构建了多语言基准测试集，用于评估不同语言模型的性能。此外，基于该数据集的研究还推动了提示词生成和优化技术的发展，为自然语言处理领域的模型训练和评估提供了新的思路和方法。

数据集最近研究