10k_prompts_ranked
收藏github2024-03-13 更新2024-05-31 收录
下载链接:
https://github.com/huggingface/data-is-better-together
下载链接
链接失效反馈官方服务:
资源简介:
10k_prompts_ranked is a dataset of prompts with quality rankings created by 314 members of the open-source ML community using Argilla, an open-source tool to label data. The prompts in this dataset include both synthetic and human-generated prompts sourced from a variety of heavily used datasets that include prompts.
10k_prompts_ranked 是一款带有质量排序的提示词(prompt)数据集,由开源机器学习社区的314名成员借助开源数据标注工具Argilla构建完成。该数据集收录的提示词涵盖合成生成与人工生成两种类型,其来源覆盖了多款被广泛使用的提示词数据集。
创建时间:
2024-03-11
原始信息汇总
数据集概述
社区努力
-
提示排名项目
- 目标: 创建一个包含10,000个提示的排名数据集,这些提示来自合成和人类生成的各种数据集。
- 方法: 使用Argilla在Hugging Face Space准备数据集,邀请社区成员根据质量对提示进行排名。
- 结果: 超过385人参与,发布了DIBT/10k_prompts_ranked数据集。
-
多语言提示评估项目(MPEP)
- 目标: 创建多语言的模型性能评估基准。
- 方法: 从DIBT/10k_prompts_ranked中选择500个高质量提示,并邀请社区成员将其翻译成不同语言。
- 结果: 成功翻译了荷兰语和俄语,西班牙语接近完成,其他多种语言也参与了此项目。
食谱努力
-
领域特定数据集
- 目标: 创建工具帮助用户与领域专家合作,以启动更多领域特定数据集的创建。
-
DPO/ORPO数据集
- 目标: 促进社区为不同语言构建更多DPO风格的数据集。
-
KTO数据集
- 目标: 帮助社区创建自己的KTO数据集,这是一种基于简单二元偏好的数据集。
搜集汇总
数据集介绍

构建方式
10k_prompts_ranked数据集的构建过程充分体现了社区协作的力量。首先,项目团队通过Argilla平台在Hugging Face Space中准备了一个包含10,000条提示的数据集,这些提示既包括合成数据,也包含来自不同数据集的人工生成内容。随后,团队邀请社区成员根据提示的质量进行排序。最终,收集并整合了385名参与者的标注结果,发布了这一数据集。整个过程不仅依赖于技术工具的支持,更得益于社区成员的积极参与。
特点
10k_prompts_ranked数据集的核心特点在于其多样性和高质量的标注。数据集涵盖了广泛的提示类型,包括合成和人工生成的内容,确保了数据的丰富性。通过社区成员的集体智慧,每条提示都经过质量排序,使得用户能够轻松筛选出高质量的提示。此外,该数据集还支持多种任务,如提示排序和合成数据生成,为自然语言处理领域的研究提供了宝贵的资源。
使用方法
使用10k_prompts_ranked数据集时,用户可以根据需求筛选高质量的提示,并将其应用于不同的任务中。例如,在提示排序任务中,用户可以利用数据集中的标注信息评估提示的质量;在合成数据生成任务中,用户可以选择高质量的提示作为输入,生成更优质的输出。此外,数据集还支持模型训练和评估,用户可以在Hugging Face平台上找到基于该数据集训练的模型,进一步扩展其应用场景。
背景与挑战
背景概述
在自然语言处理领域,提示词(prompt)的质量直接影响模型生成结果的有效性与准确性。2023年,Hugging Face、Argilla与开源机器学习社区共同发起了‘Data is Better Together’项目,旨在通过社区协作构建高质量数据集。作为该项目的一部分,10k_prompts_ranked数据集应运而生,其核心目标是通过社区参与对10,000条提示词进行质量排序,涵盖合成与人工生成的提示词。该数据集的创建不仅为提示词排序任务提供了基准,还为合成数据生成任务提供了重要支持。通过385名社区成员的共同努力,该数据集成功发布,并在多语言提示词评估项目(MPEP)中发挥了关键作用。
当前挑战
10k_prompts_ranked数据集的构建面临多重挑战。首先,提示词质量的评估具有主观性,不同参与者对‘高质量’的理解可能存在差异,这可能导致排序结果的不一致性。其次,数据集的规模较大,涉及10,000条提示词的收集与排序,这对社区协作的组织与协调提出了较高要求。此外,如何确保合成提示词与人工生成提示词在质量评估中的公平性,也是一个亟待解决的问题。在构建过程中,团队通过Argilla平台与Hugging Face Space的结合,成功实现了大规模社区标注,但仍需进一步优化评估标准与流程,以提升数据集的可靠性与实用性。
常用场景
经典使用场景
在自然语言处理领域,10k_prompts_ranked数据集被广泛应用于提示词质量评估和生成任务。该数据集包含了10,000条经过社区排名的提示词,涵盖了合成和人工生成的内容。研究人员可以通过过滤高质量提示词,进一步生成相应的补全文本,从而优化语言模型的输出效果。此外,该数据集还被用于多语言提示词翻译项目,帮助构建跨语言的基准测试集。
衍生相关工作
10k_prompts_ranked数据集衍生了一系列经典研究工作,其中最著名的是多语言提示词评估项目(MPEP)。该项目利用该数据集中的高质量提示词,构建了多语言基准测试集,用于评估不同语言模型的性能。此外,基于该数据集的研究还推动了提示词生成和优化技术的发展,为自然语言处理领域的模型训练和评估提供了新的思路和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,10k_prompts_ranked数据集的发布标志着社区驱动数据集的构建迈出了重要一步。该数据集通过众包方式对10,000条提示进行质量排名,涵盖了合成与人工生成的多样化内容,为提示排名任务和合成数据生成提供了宝贵资源。当前研究热点聚焦于如何利用该数据集优化大语言模型的提示工程,特别是在多语言环境下的应用。例如,Multilingual Prompt Evaluation Project (MPEP) 项目已成功将该数据集中的高质量提示翻译为多种语言,为跨语言模型评估提供了新的基准。此外,该数据集还被广泛应用于图像生成模型的评估,通过文本到图像偏好对的研究,推动了生成模型在复杂场景下的性能提升。这些研究不仅拓展了数据集的应用范围,也为开源社区在构建高质量数据集方面提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成



