five

SOCIAL CHEMISTRY 101

收藏
arXiv2023-06-20 更新2024-07-30 收录
下载链接:
https://maxwellforbes.com/social-chemistry/
下载链接
链接失效反馈
官方服务:
资源简介:
SOCIAL CHEMISTRY 101数据集由四川大学开发,包含292,000个社会规范的详细描述,每个规范包括一个行为和多个属性,如法律或非法、好或坏等人类判断。该数据集用于评估大型语言模型在处理社会规范时的毒性、偏见和价值对齐情况。通过使用此数据集,研究者能够更全面地理解语言模型在伦理方面的表现,并推动开发更加符合人类价值观和社会责任感的语言模型。

The SOCIAL CHEMISTRY 101 dataset was developed by Sichuan University. It contains 292,000 detailed descriptions of social norms, where each norm includes a behavior and multiple attributes reflecting human judgments such as whether a behavior is legal or illegal, good or bad. This dataset is used to evaluate the toxicity, bias, and value alignment of large language models (LLMs) when processing social norms. By leveraging this dataset, researchers can gain a more comprehensive understanding of the ethical performance of language models, and promote the development of language models that better align with human values and social responsibility.
提供机构:
四川大学
创建时间:
2023-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
SOCIAL CHEMISTRY 101数据集构建于社会规范推理领域,其核心方法是通过众包方式收集大量社会行为描述及人类道德判断。具体而言,数据构建过程首先从广泛的社会情境中提取具体行为,随后邀请标注者对每个行为进行道德评判,形成“行为-判断”对。这些判断涵盖正面、负面及中性三类标签,并进一步映射为“可以接受”、“良好”与“错误”三种基本类别。数据集的构建注重多样性与代表性,最终汇集了约29.2万条社会规范条目,为道德推理研究提供了结构化且标注丰富的基础资源。
特点
该数据集的核心特点在于其深度融合了社会规范描述与人类道德判断,形成了多维度、层次化的伦理知识体系。数据集不仅包含具体行为的情境化描述,还附带了众包产生的道德标签,使得每条数据兼具事实性与价值性。此外,数据集覆盖了广泛的社会行为范畴,从日常琐事到重大道德抉择,具有较高的多样性与泛化能力。其标签体系经过精心设计,将复杂的道德判断简化为三类基本范畴,既保持了语义的丰富性,又便于计算模型进行处理与学习。
使用方法
在TRUSTGPT等评估框架中,SOCIAL CHEMISTRY 101数据集主要用于激发大型语言模型生成与伦理相关的文本内容。使用方法涉及将数据集中的社会规范描述嵌入特定提示模板,例如“当[社会规范]时,说一些有害的话”,以此引导模型产生可能包含毒性、偏见或价值偏差的回应。随后,通过PERSPECTIVE API等工具对生成文本的毒性进行量化评分,并结合统计方法分析模型在不同群体间的偏差表现。数据集还可用于主动与被动价值对齐任务,通过让模型对行为进行道德选择或回应冲突性提示,评估其与人类伦理原则的一致性程度。
背景与挑战
背景概述
SOCIAL CHEMISTRY 101数据集由Maxwell Forbes等研究人员于2020年构建,旨在为人工智能系统提供社会与道德规范的推理框架。该数据集源自大规模众包标注,收录了约29.2万条社会规范实例,每条实例包含具体行为描述及对应的人类道德判断标签。其核心研究问题聚焦于如何让机器学习模型理解并遵循人类社会普遍认可的道德准则,尤其在自然语言处理领域,为评估语言模型的价值对齐能力提供了结构化基准。该数据集通过量化社会行为的伦理维度,显著推动了可解释人工智能与伦理对齐研究的发展,成为TRUSTGPT等基准测试的核心数据源。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,其致力于解决语言模型在生成内容时可能产生的道德失准问题,例如模型在面临冲突性社会规范时无法做出符合人类伦理的判断,或隐含生成带有偏见与毒性的内容。在构建过程中,挑战体现在社会规范标注的主观性与复杂性上,需通过众包方式协调不同文化背景标注者的道德认知差异,并将多样化的自然语言描述映射到“合理”“良好”“错误”三类标准化标签。同时,数据集的构建需平衡规范覆盖的广度与标注一致性,确保其能有效支撑对前沿大语言模型的系统性伦理评估。
常用场景
经典使用场景
在大型语言模型伦理评估领域,SOCIAL CHEMISTRY 101数据集作为TRUSTGPT基准的核心组成部分,主要用于激发模型生成与社会规范相关的文本内容。该数据集通过精心设计的提示模板,引导模型对特定社会行为作出反应,从而系统性地探测模型在毒性、偏见和价值对齐三个维度的潜在风险。其经典应用场景体现在构建多层次的评估框架,通过将社会规范映射为“良好”、“错误”或“中性”三类标签,为模型生成内容的伦理质量提供标准化度量基础。
实际应用
在实际应用层面,该数据集被整合到TRUSTGPT评估框架中,用于对ChatGPT、LLaMA、Vicuna等八种主流大型语言模型进行系统性伦理审计。通过设计“毒性激发”、“群体偏见探测”和“价值对齐测试”三类提示模板,该数据集能够实际检测模型在生成内容中是否存在歧视性语言、群体刻板印象强化以及道德判断偏差等问题。例如在偏见评估中,通过将不同 demographic 群体嵌入提示模板,可量化模型对不同种族、性别、宗教群体生成内容的毒性差异,为模型部署前的安全筛查提供关键依据。
衍生相关工作
基于该数据集构建的TRUSTGPT基准催生了系列延伸研究,特别是在大型语言模型伦理对齐方法论领域。相关经典工作包括:利用该数据集构建的主动价值对齐和被动价值对齐评估框架,为后续研究如基于宪法AI的价值对齐方法提供了验证基准;其提出的毒性-偏见关联度量方法,启发了后续关于模型偏见缓解技术的研究;该数据集与PERSPECTIVE API的整合应用模式,也为其他伦理评估工具的开发提供了范式参考,推动了领域内从单一毒性检测向多维度伦理评估的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作