faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias
收藏Hugging Face2025-09-12 更新2025-09-13 收录
下载链接:
https://huggingface.co/datasets/yeok/faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,如idx(索引),Qwen_Qwen3-8B-y和Qwen_Qwen3-8B-z(可能是文本字段),sft_prompt(软提示),sft_gold_answer(标准答案),以及与文本插入和用户偏见相关的字段。数据集分为训练集和测试集,训练集包含9196个示例,测试集包含598个示例。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias
- 来源: Hugging Face 数据集平台
- 下载大小: 1,629,037 字节
- 数据集大小: 5,751,887.352840809 字节
数据特征
数据集包含以下字段:
idx: 整型,索引标识Qwen_Qwen3-8B-y: 字符串类型Qwen_Qwen3-8B-z: 字符串类型sft_prompt: 字符串类型sft_gold_answer: 字符串类型y_prime_random_insertion: 字符串类型y_prime_user_bias: 字符串类型z_prime_random_insertion: 字符串类型z_prime_user_bias: 字符串类型delta: 字符串类型x_prime: 字符串类型
数据划分
- 训练集 (train): 2,000 个样本,大小 4,416,636.069394097 字节
- 测试集 (test): 598 个样本,大小 1,335,251.283446712 字节
配置文件
- 默认配置 (default): 数据文件路径为
data/train-*(训练集)和data/test-*(测试集)
搜集汇总
数据集介绍

构建方式
在人工智能可信度评估领域,faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias数据集基于Social IQa基准构建,通过系统化流程生成对抗性样本。原始问题经过Qwen3-8B模型处理产生基础响应,随后采用随机插入和用户偏见注入两种策略生成扰动版本y'和z',最终形成包含2000条训练样本和598条测试样本的结构化数据。
特点
该数据集的核心特征体现在其多维度的对比架构,每个样本包含原始提示、标准答案、模型生成响应及两种扰动变体。特别设计的delta字段量化了响应偏差程度,而x_prime字段则保留了语义一致的改写问题。这种设计使数据集能够精确捕捉语言模型在社交推理任务中对用户偏见的敏感性和稳定性。
使用方法
研究人员可借助该数据集开展模型忠实度评估实验,通过对比原始响应与扰动响应的差异度测量模型抗干扰能力。典型工作流程包括:加载训练集进行偏差检测模型训练,使用测试集评估模型在随机插入和用户偏见场景下的表现,最后通过delta值分析模型输出的一致性水平,为提升AI系统的鲁棒性提供量化依据。
背景与挑战
背景概述
在人工智能伦理与对齐研究领域,faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias数据集聚焦于大型语言模型在社会推理任务中的忠实度与用户偏见问题。该数据集由前沿研究团队基于SocialIQa基准构建,通过系统性地注入用户偏见变量,旨在探究模型输出对预设价值观的偏离机制。其核心研究在于揭示语言模型在社交情境推理过程中可能存在的道德风险与一致性缺陷,为可解释AI与价值观对齐提供关键数据支撑。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决社会推理任务中模型输出与人类道德判断的一致性验证难题,涉及多维度价值观的量化评估与偏差检测;在构建过程中,既要保证原始SocialIQa数据的语义完整性,又要精确控制偏见变量的注入强度与类型,避免引入混淆因素。同时,数据标注需协调伦理规范与语言学表达的平衡,确保生成文本既符合实验设计又保持自然流畅性。
常用场景
经典使用场景
在自然语言处理领域,faithfulness-social_iqa-Qwen_Qwen3-8B-user-bias数据集主要用于评估和提升语言模型在社交推理任务中的忠实度与抗偏见能力。通过精心构建的问答对和扰动样本,研究者能够系统分析模型在面对用户偏见插入时的响应一致性,为可信人工智能研究提供关键数据支撑。
解决学术问题
该数据集有效解决了语言模型生成内容与真实意图对齐的学术难题,特别是针对社交情境推理中存在的隐性偏见问题。通过量化分析模型输出偏差(delta)和扰动响应(y_prime/z_prime),为可解释AI领域提供了衡量模型忠实度的新范式,显著推进了人工智能伦理与安全研究进程。
衍生相关工作
基于该数据集衍生了多项经典研究,包括基于扰动分析的模型鲁棒性评估框架、社会偏见量化指标体系以及多模态忠实度验证方法。这些工作显著推动了ACL、EMNLP等顶级会议在AI伦理方向的研究进展,为构建下一代可信语言模型奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



