socialnormdataset/social
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/socialnormdataset/social
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在NAACL 2024论文《测量大型语言模型的社会规范》中提出的,旨在测试大型语言模型是否理解社会规范。与现有数据集不同,该数据集需要对社会规范有基本的理解才能解决。数据集包含402项技能和12,383个问题,涵盖了广泛的社会规范,如意见、争论、文化和法律等。数据集的设计基于K-12课程,使得可以直接比较大型语言模型与人类(特别是小学生)的社会理解能力。尽管之前的工作在基准测试中表现几乎随机,但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat显著提高了性能,仅略低于人类水平。随后,提出了一个基于大型语言模型的多智能体框架,以进一步提高模型理解社会规范的能力。该方法进一步使大型语言模型与人类水平相当。鉴于大型语言模型在现实世界应用中的日益普及,这一发现尤为重要,并为未来的改进提供了独特的方向。
该数据集是在NAACL 2024论文《测量大型语言模型的社会规范》中提出的,旨在测试大型语言模型是否理解社会规范。与现有数据集不同,该数据集需要对社会规范有基本的理解才能解决。数据集包含402项技能和12,383个问题,涵盖了广泛的社会规范,如意见、争论、文化和法律等。数据集的设计基于K-12课程,使得可以直接比较大型语言模型与人类(特别是小学生)的社会理解能力。尽管之前的工作在基准测试中表现几乎随机,但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat显著提高了性能,仅略低于人类水平。随后,提出了一个基于大型语言模型的多智能体框架,以进一步提高模型理解社会规范的能力。该方法进一步使大型语言模型与人类水平相当。鉴于大型语言模型在现实世界应用中的日益普及,这一发现尤为重要,并为未来的改进提供了独特的方向。
提供机构:
socialnormdataset
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 数据集大小: 10K<n<100K
- 标签: 社交、基准
数据集描述
- 名称: Social Dataset
- 目的: 评估大型语言模型对社交规范的理解能力
- 特点: 包含402种社交规范技能,共12,383个问题,覆盖从观点、论点到文化、法律等多个社交规范领域
- 设计依据: 根据K-12课程设计,便于与人类(特别是小学生)的社交理解能力进行直接比较
- 性能: 近期的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat在该数据集上的表现接近人类水平
数据集结构
-
统计信息:
科目 #技能 #问题 平均选项数 社会研究 170 2,315 3.4 语言艺术 232 10,068 2.4 总计 402 12,383 2.6 -
数据格式: python DatasetDict({ test: Dataset({ features: [subject, grade, skill, question, choices, answer_idx], num_rows: 12383 }) })
-
特征描述:
subject: 问题所属科目,包括social studies和language artsgrade: 问题对应的年级信息skill: 问题的技能级别信息question: 问题文本choices: 问题选项answer_idx: 正确答案在choices中的索引
使用指南
- 请参考代码了解如何在数据集上进行评估
引用信息
bibtex @inproceedings{yuan2024measuring, title={Measuring Social Norms of Large Language Models}, author={Ye Yuan and Kexin Tang and Jianhao Shen and Ming Zhang and Chenguang Wang}, year={2024}, booktitle={NAACL}, }



