ab_self_promotion_questions

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/ai-safety-institute/ab_self_promotion_questions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1779个训练样本，每个样本包含id、question和sub_category三个字段。数据以结构化文本形式存储，总大小为237540字节，压缩包为125957字节。数据集仅包含训练集，未提供验证集或测试集。从字段命名推测可能适用于问答系统或文本分类任务。

创建时间：

2026-04-24

原始信息汇总

根据您提供的数据集详情页面内容，以下是对数据集的关键信息总结：

数据集概述

数据集名称：ab_self_promotion_questions
提供机构：ai-safety-institute（英国人工智能安全研究所）
地址：https://huggingface.co/datasets/ai-safety-institute/ab_self_promotion_questions

数据集结构

该数据集包含一个默认配置（default），具体字段如下：

列名	数据类型	说明
`id`	string	样本唯一标识符
`question`	string	问题文本内容
`sub_category`	string	子类别标签

数据集划分

训练集（train）：共 1,779 条样本
总数据集大小：237,540 字节
下载大小：125,957 字节

数据文件路径

训练集数据文件位于：data/train-*（使用通配符匹配多个文件）

简要说明

该数据集由英国人工智能安全研究所发布，专注于自推广（self-promotion）相关问题的收集与分类，包含问题文本及其所属子类别，适用于模型安全对齐或上下文相关行为评估。

搜集汇总

数据集介绍

构建方式

在对话系统与自监督学习领域，高质量的提示问题数据是激发大语言模型潜力的关键基石。本数据集聚焦于“自我推广”这一典型社会交互场景，通过系统化采集与结构化整理，构建了包含1779条样本的专业问答语料库。每条数据均包含唯一标识符、具体问题文本及其细粒度子类别标签，并统一以默认配置划分为训练集，数据文件以分片形式存储，便于分布式加载与后续微调任务。

特点

该数据集的核心特色在于其针对自我推广行为的语义聚焦与精细分类。相较于通用问答数据，它专门提取了与个人能力展示、成就陈述、职业形象塑造等相关的提问模式，并辅以子类别标签实现层次化组织。这种设计不仅保留了自然语言中微妙的劝服性与自信表达，还为模型学习特定社交语境下的生成策略提供了结构清晰的监督信号，使其在角色扮演与虚拟助手任务中更具实用价值。

使用方法

使用时，可直接通过HuggingFace数据集库加载默认配置的训练分片，利用'question'字段作为输入文本进行语言模型微调或提示优化。研究者可将'sub_category'作为分类标签探索不同自我推广子类型下的语言特征，或基于'id'进行样本级别的灵活检索与过滤。推荐搭配序列到序列或对话生成框架，以充分发挥其在个性化回复生成与社交技能模拟中的潜力。

背景与挑战

背景概述

随着社交媒体的高度普及，用户生成内容中自我推广行为的检测与分析成为自然语言处理领域的重要课题。ab_self_promotion_questions数据集由相关研究机构于近年创建，专注于收集和标注社交媒体中具有自我推广意图的文本问题。该数据集包含1779个训练样本，每个样本均经过精细的子类别划分，为深入理解自我推广的语言模式提供了结构化资源。其核心研究问题在于探究不同语境下自我推广问题的语义特征与分类体系，对社交行为分析、广告推荐及虚假信息检测等应用具有显著影响力，填补了该细分领域的标注数据空白。

当前挑战

该数据集所解决的领域挑战在于自我推广行为常与正常信息分享高度相似，其语言边界模糊，传统方法难以准确区分，亟需针对性标注数据以训练高精度分类模型。在构建过程中，面临的主要挑战包括：自我推广问题在不同社交平台表达形式多样，标注标准难以统一；样本中子类别划分需兼顾语义互斥性与交叉性，对标注者专业知识要求极高；此外，少量样本（1779条）可能导致模型泛化能力受限，需通过数据增强或迁移学习等技术弥补规模不足的缺陷。

常用场景

经典使用场景

在自然语言处理与计算社会科学交叉领域中，ab_self_promotion_questions数据集为研究自我推广性提问行为提供了宝贵的标注语料。该数据集包含1779条训练样本，每条记录均包含问题文本及其细粒度子类别标签，使得研究者能够系统地分析不同语境下自我推广问题的语言模式与分类特征。经典使用场景包括训练文本分类模型以自动识别自我推广性提问，以及探究自我推广行为在不同社交场景中的分布差异。

实际应用

在实际应用中，该数据集可助力社交媒体平台构建智能内容审核系统，精准识别含有自我推广意图的提问，从而优化推荐算法与用户交互体验。企业可利用基于该数据训练的模型自动监测品牌相关讨论中的自我推广内容，为市场调研与竞品分析提供数据支持。此外，在线教育与学生互动平台也可借助该数据集开发工具，区分求知性提问与自我展示性提问，从而设计更有效的教学辅助功能。

衍生相关工作

基于ab_self_promotion_questions数据集，研究者已衍生出多项经典工作。在文本分类领域，有工作探索了基于预训练语言模型（如BERT）的自我推广问题识别方法，并与传统特征工程方法进行对比。在语用学分析方面，衍生研究将自我推广问题与礼貌原则、面子理论相结合，揭示了不同文化语境下的提问策略差异。此外，还有工作将该数据集与相似社交语料进行跨数据集的迁移学习实验，验证了自我推广行为检测的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集