socialnormdataset/social

Name: socialnormdataset/social
Creator: socialnormdataset
Published: 2024-05-22 04:59:12
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/socialnormdataset/social

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在NAACL 2024论文《测量大型语言模型的社会规范》中提出的，旨在测试大型语言模型是否理解社会规范。与现有数据集不同，该数据集需要对社会规范有基本的理解才能解决。数据集包含402项技能和12,383个问题，涵盖了广泛的社会规范，如意见、争论、文化和法律等。数据集的设计基于K-12课程，使得可以直接比较大型语言模型与人类（特别是小学生）的社会理解能力。尽管之前的工作在基准测试中表现几乎随机，但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat显著提高了性能，仅略低于人类水平。随后，提出了一个基于大型语言模型的多智能体框架，以进一步提高模型理解社会规范的能力。该方法进一步使大型语言模型与人类水平相当。鉴于大型语言模型在现实世界应用中的日益普及，这一发现尤为重要，并为未来的改进提供了独特的方向。

提供机构：

socialnormdataset

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言: 英语
数据集大小: 10K<n<100K
标签: 社交、基准

数据集描述

名称: Social Dataset
目的: 评估大型语言模型对社交规范的理解能力
特点: 包含402种社交规范技能，共12,383个问题，覆盖从观点、论点到文化、法律等多个社交规范领域
设计依据: 根据K-12课程设计，便于与人类（特别是小学生）的社交理解能力进行直接比较
性能: 近期的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat在该数据集上的表现接近人类水平

数据集结构

统计信息:

科目 #技能 #问题平均选项数

社会研究 170 2,315 3.4

语言艺术 232 10,068 2.4

总计 402 12,383 2.6
数据格式: python DatasetDict({ test: Dataset({ features: [subject, grade, skill, question, choices, answer_idx], num_rows: 12383 }) })
特征描述:
- subject: 问题所属科目，包括social studies和language arts
- grade: 问题对应的年级信息
- skill: 问题的技能级别信息
- question: 问题文本
- choices: 问题选项
- answer_idx: 正确答案在choices中的索引

使用指南

请参考代码了解如何在数据集上进行评估

引用信息

bibtex @inproceedings{yuan2024measuring, title={Measuring Social Norms of Large Language Models}, author={Ye Yuan and Kexin Tang and Jianhao Shen and Ming Zhang and Chenguang Wang}, year={2024}, booktitle={NAACL}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集

科目	#技能	#问题	平均选项数
社会研究	170	2,315	3.4
语言艺术	232	10,068	2.4
总计	402	12,383	2.6