five

socialnormdataset/social

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/socialnormdataset/social
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在NAACL 2024论文《测量大型语言模型的社会规范》中提出的,旨在测试大型语言模型是否理解社会规范。与现有数据集不同,该数据集需要对社会规范有基本的理解才能解决。数据集包含402项技能和12,383个问题,涵盖了广泛的社会规范,如意见、争论、文化和法律等。数据集的设计基于K-12课程,使得可以直接比较大型语言模型与人类(特别是小学生)的社会理解能力。尽管之前的工作在基准测试中表现几乎随机,但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat显著提高了性能,仅略低于人类水平。随后,提出了一个基于大型语言模型的多智能体框架,以进一步提高模型理解社会规范的能力。该方法进一步使大型语言模型与人类水平相当。鉴于大型语言模型在现实世界应用中的日益普及,这一发现尤为重要,并为未来的改进提供了独特的方向。

该数据集是在NAACL 2024论文《测量大型语言模型的社会规范》中提出的,旨在测试大型语言模型是否理解社会规范。与现有数据集不同,该数据集需要对社会规范有基本的理解才能解决。数据集包含402项技能和12,383个问题,涵盖了广泛的社会规范,如意见、争论、文化和法律等。数据集的设计基于K-12课程,使得可以直接比较大型语言模型与人类(特别是小学生)的社会理解能力。尽管之前的工作在基准测试中表现几乎随机,但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat显著提高了性能,仅略低于人类水平。随后,提出了一个基于大型语言模型的多智能体框架,以进一步提高模型理解社会规范的能力。该方法进一步使大型语言模型与人类水平相当。鉴于大型语言模型在现实世界应用中的日益普及,这一发现尤为重要,并为未来的改进提供了独特的方向。
提供机构:
socialnormdataset
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 数据集大小: 10K<n<100K
  • 标签: 社交、基准

数据集描述

  • 名称: Social Dataset
  • 目的: 评估大型语言模型对社交规范的理解能力
  • 特点: 包含402种社交规范技能,共12,383个问题,覆盖从观点、论点到文化、法律等多个社交规范领域
  • 设计依据: 根据K-12课程设计,便于与人类(特别是小学生)的社交理解能力进行直接比较
  • 性能: 近期的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat在该数据集上的表现接近人类水平

数据集结构

  • 统计信息:

    科目 #技能 #问题 平均选项数
    社会研究 170 2,315 3.4
    语言艺术 232 10,068 2.4
    总计 402 12,383 2.6
  • 数据格式: python DatasetDict({ test: Dataset({ features: [subject, grade, skill, question, choices, answer_idx], num_rows: 12383 }) })

  • 特征描述:

    • subject: 问题所属科目,包括social studieslanguage arts
    • grade: 问题对应的年级信息
    • skill: 问题的技能级别信息
    • question: 问题文本
    • choices: 问题选项
    • answer_idx: 正确答案在choices中的索引

使用指南

  • 请参考代码了解如何在数据集上进行评估

引用信息

bibtex @inproceedings{yuan2024measuring, title={Measuring Social Norms of Large Language Models}, author={Ye Yuan and Kexin Tang and Jianhao Shen and Ming Zhang and Chenguang Wang}, year={2024}, booktitle={NAACL}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作