walledai/CBBQ
收藏Hugging Face2024-10-18 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/walledai/CBBQ
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个类别的数据,每个类别都有对应的上下文、问题、选项、答案和类别信息。数据集的分割包括社会经济地位(ses)、年龄(age)、残疾(disability)、疾病(disease)、教育资格(educationalQualification)、种族(ethnicity)、性别(gender)、户籍(householdRegistration)、国籍(nationality)、外貌(physicalAppearance)、种族(race)、地区(region)、宗教(religion)和性取向(sexualOrientation)。每个分割都有对应的文件大小和示例数量。数据集的总下载大小为3192742字节,总大小为45018890字节。
This dataset contains data from multiple categories, each with corresponding context, question, choices, answer, and category information. The dataset splits include socioeconomic status (ses), age, disability, disease, educational qualification, ethnicity, gender, household registration, nationality, physical appearance, race, region, religion, and sexual orientation. Each split has corresponding file sizes and example counts. The total download size of the dataset is 3192742 bytes, and the total size is 45018890 bytes.
提供机构:
walledai
原始信息汇总
数据集概述
数据集特征
- context: 文本类型
- question: 文本类型
- choices: 文本序列
- answer: 整数类型
- category: 文本类型
数据集分割
- ses: 3384756 字节, 7920 个样本
- age: 5215256 字节, 14800 个样本
- disability: 1220524 字节, 3144 个样本
- disease: 534618 字节, 1172 个样本
- educationalQualification: 1407280 字节, 2784 个样本
- ethnicity: 654906 字节, 1960 个样本
- gender: 995056 字节, 3372 个样本
- householdRegistration: 7148200 字节, 17400 个样本
- nationality: 8778654 字节, 23974 个样本
- physicalAppearance: 1418932 字节, 3712 个样本
- race: 9817624 字节, 27056 个样本
- region: 1496928 字节, 4352 个样本
- religion: 2496100 字节, 5900 个样本
- sexualOrientation: 450056 字节, 1120 个样本
数据集大小
- 下载大小: 3192742 字节
- 总大小: 45018890 字节
配置
- config_name: default
- ses: data/ses-*
- age: data/age-*
- disability: data/disability-*
- disease: data/disease-*
- educationalQualification: data/educationalQualification-*
- ethnicity: data/ethnicity-*
- gender: data/gender-*
- householdRegistration: data/householdRegistration-*
- nationality: data/nationality-*
- physicalAppearance: data/physicalAppearance-*
- race: data/race-*
- region: data/region-*
- religion: data/religion-*
- sexualOrientation: data/sexualOrientation-*
搜集汇总
数据集介绍

构建方式
在人工智能伦理评估领域,CBBQ数据集的构建体现了严谨的学术范式。其核心流程融合了人机协同的智慧,通过四个关键步骤系统化完成:首先从中国知网等学术平台检索并筛选出与14个社会维度相关的文献,以此为基础进行偏见识别;随后由人类专家精心撰写初始语境模板;继而借助生成式语言模型辅助生成具有歧义性的上下文,以模拟现实中的复杂情境;最后经由严格的人工审查与重组,确保每个测试实例的质量与有效性。整个流程依托三千余个高质量手动模板,自动衍生出逾十万条问题,实现了覆盖广度与内容多样性的平衡。
特点
该数据集在中文社会偏见评测领域展现出鲜明的特色。其内容体系深度植根于中国文化与价值观,涵盖了年龄、性别、民族、宗教、地域等十四个关键社会维度,为全面评估大型语言模型的社会伦理风险提供了多维视角。数据规模庞大,实例数量超过十万,且每个类别均基于大量学术文献与高质量模板生成,保证了评测的广泛性与代表性。数据集结构清晰,以语境、问题、选项和答案的形式组织,便于模型进行标准化偏见检测,为相关研究提供了可靠且丰富的基准资源。
使用方法
研究人员可借助该数据集系统评估中文大语言模型在不同社会维度上的偏见表现。典型的使用方法是将数据集的语境与问题作为输入,要求模型从多项选择中给出答案,通过分析模型答案的分布与倾向性,量化其在不同类别上的偏见程度。数据集已按不同社会维度划分,支持针对特定维度(如性别、种族)的细粒度分析。用户可直接加载HuggingFace平台上的对应配置,按需选取特定分片进行实验,其结果可用于模型对比、偏见溯源以及后续的去偏见化技术研究。
背景与挑战
背景概述
随着大语言模型在中文语境下的广泛应用,对其潜在社会偏见的系统性评估成为人工智能伦理领域的关键议题。在此背景下,黄宇飞与熊德意等研究人员于2024年共同构建了中文偏见基准数据集(CBBQ),旨在全面检测大语言模型在中文社会文化维度中可能存在的伦理风险。该数据集依托人机协作的构建模式,通过严谨的学术文献检索与人工模板设计,涵盖了年龄、性别、民族、宗教等14个与中国社会价值观紧密相关的维度,共计包含超过10万条测试实例。CBBQ的发布为中文自然语言处理领域的偏见量化研究提供了重要的基准工具,推动了模型公平性与可解释性的深入探索。
当前挑战
CBBQ数据集致力于解决大语言模型在中文社会文化语境下的偏见检测与量化难题,其核心挑战在于如何精准捕捉模型在多样化社会维度中隐含的刻板印象与歧视性倾向。在构建过程中,研究团队面临多重困难:首先,需从海量中文文献中筛选出具有代表性的偏见表述,并确保其覆盖范围的全面性与文化敏感性;其次,人机协作的生成机制要求在高效率与高质量之间取得平衡,避免自动化流程引入新的偏差;此外,数据标注与模板设计需经过严格的人工审核与重组,以维持语境的一致性与评估的有效性,这些环节均对资源的投入与质量控制提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,CBBQ数据集作为一项专门针对中文大语言模型偏见评估的基准资源,其经典使用场景在于系统性地检测模型在社会维度上的偏差表现。研究者通过该数据集构建的多选题测试框架,能够量化评估模型在年龄、性别、种族、宗教等14个社会类别中是否隐含刻板印象或歧视性倾向,为模型伦理审计提供标准化度量工具。
解决学术问题
该数据集有效解决了大语言模型偏见量化与跨文化评估的学术难题。通过涵盖中国社会文化特有的维度如户籍、民族等,CBBQ填补了中文语境下系统性偏见检测数据集的空白,使得研究者能够深入探究模型在复杂社会语境中的偏差生成机制,并为去偏见算法的开发与验证提供关键数据支撑。
衍生相关工作
基于CBBQ数据集,学术界已衍生出多项聚焦于偏见缓解与模型对齐的经典研究。例如,部分工作探索了指令微调对模型“道德自我修正”能力的影响,另一些研究则利用该数据集的细粒度类别划分,开发了针对特定社会维度的去偏见算法,推动了中文NLP领域模型伦理研究的方法论创新。
以上内容由遇见数据集搜集并总结生成



