user_prompt_domain_classification-500000x

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/kth8/user_prompt_domain_classification-500000x

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含50万条用户提示（prompts），这些提示已被分类到不同领域。分类工作由OpenAI的GPT-OSS-120B模型完成，参数设置为中等推理强度（reasoning=medium）、temperature=0和top_p=1。数据来源于多个公开仓库，确保了数据的多样性，包括编码提示、数学问题、科学问题等多种类型。数据集适用于文本分类任务，语言为英语，规模介于10万到100万条之间。整个数据集的标注工作共消耗了7000万token的计算资源。

创建时间：

2026-04-02

原始信息汇总

数据集概述

基本信息

数据集名称: user_prompt_domain_classification-500000x
许可证: Apache 2.0
任务类别: 文本分类
语言: 英语
规模: 100K < n < 1M

数据集内容

数据量: 500,000 条用户提示
核心处理: 提示已按领域进行分类
分类模型: 使用 openai/gpt-oss-120b 模型进行分类
推理设置: 推理级别为 medium
生成参数: temperature=0, top_p=1

数据来源

提示来源于以下多个仓库，并经过随机化处理：

https://huggingface.co/datasets/Roman1111111/coding-prompts
https://huggingface.co/datasets/kth8/user-prompts-1M
https://huggingface.co/datasets/wop/just-user-prompts
https://huggingface.co/datasets/trl-lib/DeepMath-103K
https://huggingface.co/datasets/ianncity/General-Distillation-Prompts-1M
https://huggingface.co/datasets/ianncity/VIBE-Prompts-500000x
https://huggingface.co/datasets/ianncity/science-prompts-100k
https://huggingface.co/datasets/m-a-p/SuperGPQA

资源消耗

总完成令牌数: 70,000,000

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模高质量标注数据是模型训练与评估的基石。user_prompt_domain_classification-500000x数据集的构建采用了系统化的数据整合与自动化标注策略。其核心流程是从多个公开的提示语数据源中进行随机采样与汇集，这些源数据覆盖了编程、数学、科学及通用对话等多种主题。随后，利用OpenAI研发的GPT-OSS-120B大规模语言模型，在推理强度设置为中等、且温度参数为零的确定性条件下，对总计五十万条用户提示进行了领域分类标注，该过程消耗了约七千万个补全令牌，确保了标注过程的一致性与可复现性。

特点

该数据集在提示工程与领域分类研究中展现出显著价值。其最突出的特点在于规模庞大，包含了五十万条经过分类的英文用户提示，为训练鲁棒的分类模型提供了充足样本。数据来源具有高度多样性，融合了来自编程、数学推理、科学问答以及通用指令等多种异构数据集的提示，这有效提升了数据分布的广泛性与代表性。此外，所有分类标签均由先进的GPT-OSS-120B模型生成，在一致的推理配置下完成，保证了标注逻辑的统一性，为研究自动化标注质量与大模型行为提供了高质量基准。

使用方法

该数据集主要服务于文本分类模型的开发与评估。研究人员可直接将其用于监督学习，训练能够自动识别用户提示所属领域的分类器，这对于构建领域感知的对话系统或进行提示分析至关重要。在具体应用时，可将数据集按标准比例划分为训练集、验证集和测试集，以评估模型的泛化性能。鉴于其标注来源于大语言模型，该数据集也可用于研究模型间知识迁移、评估不同分类算法的效果，或作为检验自动化标注与人工标注一致性的对比基准，推动提示理解与领域适应技术的进步。

背景与挑战

背景概述

随着大规模语言模型的广泛应用，用户提示的分类成为优化模型交互与领域适应性的关键。数据集user_prompt_domain_classification-500000x由多个开源项目整合而成，涵盖了编程、数学、科学及通用对话等多样领域，旨在构建一个大规模、高质量的提示分类基准。该数据集通过OpenAI的GPT-OSS-120B模型进行自动化标注，采用中等推理强度与确定性参数设置，确保了分类的一致性与可靠性，为自然语言处理中的提示工程与领域适应研究提供了重要资源。

当前挑战

该数据集致力于解决用户提示的领域分类问题，其核心挑战在于处理提示文本的语义多样性与领域模糊性，例如同一提示可能涉及多个交叉学科。在构建过程中，挑战主要源于数据源的异构性，不同来源的提示在格式、语言风格与主题分布上存在显著差异，需通过随机化与模型标注实现统一处理；同时，依赖大型语言模型进行自动化分类虽提升了效率，但可能引入模型固有的偏见与错误，影响数据集的准确性与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，用户提示的领域分类是优化大语言模型交互的关键环节。该数据集通过汇集并标注五十万条用户提示，为研究者提供了一个大规模、多领域的文本分类基准。其经典使用场景在于训练和评估领域分类模型，帮助系统准确识别用户输入的意图所属范畴，如编程、数学、科学或通用对话等，从而提升下游任务的处理效率与精准度。

解决学术问题

该数据集有效应对了用户提示领域分类中数据稀缺与标注质量不均的学术挑战。通过整合多个高质量提示源，并利用先进的大语言模型进行自动化标注，它确保了分类的一致性与可靠性。这解决了领域分类模型训练中数据噪声大、标注成本高的常见问题，为领域自适应、少样本学习等研究方向提供了坚实的实验基础，推动了提示工程与交互式人工智能的系统化探索。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在提示优化、领域自适应模型训练以及分类算法改进等方面。例如，研究者利用其大规模标注数据训练了高效的轻量级分类器，以降低部署成本；同时，该数据集也常被用作基准，评估新兴的少样本或零样本分类方法在真实用户提示上的泛化能力。这些工作进一步丰富了提示分类的技术体系，并促进了交互式AI系统的实用化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集