five

SocialIQA|语言模型数据集|社会常识推理数据集

收藏
arXiv2025-01-15 更新2025-01-16 收录
语言模型
社会常识推理
下载链接:
https://github.com/caisa-lab
下载链接
链接失效反馈
资源简介:
SocialIQA数据集由波恩大学对话式人工智能与社会分析实验室扩展,旨在评估语言模型在不同社会人口统计风格下的鲁棒性。该数据集包含1954个样本,源自SocialIQA验证集,涵盖了多种社会常识推理问题。数据集的创建过程通过LLAMA2模型生成不同人口统计风格的释义,确保语义相似度高于0.8。该数据集主要用于评估语言模型在复杂语言场景中的推理能力,特别是在面对不同人口统计风格的语言变化时的表现。
提供机构:
波恩大学对话式人工智能与社会分析实验室(CAISA Lab),拉马尔机器学习和人工智能研究所
创建时间:
2025-01-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
SocialIQA数据集的构建基于对大规模语言模型(LLMs)在社会人口学维度上的鲁棒性测试。研究者通过扩展SocialIQA数据集,生成了多样化的社会人口学风格的条件性改写集。具体而言,使用LLAMA2模型对原始数据集中的验证集进行改写,旨在模拟不同社会人口学群体的语言风格,同时保持原始上下文的语义不变。改写后的数据集通过语义相似性阈值(0.8)进行筛选,确保改写内容与原始意图一致。此外,使用LexHub工具对改写内容的社会人口学特征进行对齐验证,确保改写内容符合预期的社会人口学风格。
特点
SocialIQA数据集的特点在于其对社会人口学语言风格的多样化覆盖。数据集通过LLAMA2模型生成了针对不同性别(如男性、女性、性别模糊)和年龄(如年轻、中年、老年)群体的改写版本,涵盖了丰富的语言表达方式。这些改写不仅保留了原始问题的语义,还引入了不同社会人口学群体的语言特征,如表达方式、情感倾向和语法复杂性。数据集还通过LexHub工具对改写内容的社会人口学特征进行了对齐验证,确保了改写内容与目标群体的语言风格一致。这种多样化的语言风格覆盖使得该数据集能够有效测试语言模型在不同社会人口学背景下的鲁棒性。
使用方法
SocialIQA数据集的使用方法主要围绕对语言模型在社会人口学语言风格下的鲁棒性评估展开。研究者可以通过该数据集测试模型在不同社会人口学风格下的问答性能,尤其是在零样本和少样本设置下的表现。具体而言,用户可以将改写后的数据集输入到语言模型中,评估模型在不同社会人口学风格下的准确性和鲁棒性。此外,数据集还可用于分析模型在不同语言风格下的困惑度、可解释性以及ATOMIC知识的表现。通过这些评估,研究者可以深入了解语言模型在处理复杂社会人口学语言风格时的能力,并为模型的进一步优化提供依据。
背景与挑战
背景概述
SocialIQA数据集由Maarten Sap等人于2019年提出,旨在评估模型在社会互动场景中的常识推理能力。该数据集包含38,000个多项选择题,涵盖了九种推理类型,如意图、需求、反应和效果等。该数据集的创建背景源于对大型语言模型(LLMs)在不同语言风格和人口统计学维度下鲁棒性的关注。近年来,LLMs在理解和生成类人文本方面取得了显著进展,但其在面对多样化的语言风格时仍存在挑战,尤其是在处理不同人口统计学群体的语言变体时。SocialIQA的扩展版本通过生成基于人口统计学风格的多样化释义集,进一步探索了LLMs在复杂语言场景中的推理能力。
当前挑战
SocialIQA数据集面临的挑战主要体现在两个方面。首先,该数据集旨在解决LLMs在处理多样化语言风格时的鲁棒性问题,尤其是面对不同人口统计学群体的语言变体时,模型的表现往往不稳定。例如,年轻群体和性别模糊群体的语言风格通常更具表达性和非正式性,导致模型在这些场景下的推理能力显著下降。其次,在数据集的构建过程中,研究人员需要通过LLMs生成基于人口统计学风格的释义集,这一过程面临语义保持和风格控制的挑战。尽管LLMs在生成多样化语言风格方面表现出色,但如何确保生成的释义在保持原意的基础上准确反映特定人口统计学风格,仍然是一个复杂且尚未完全解决的问题。
常用场景
经典使用场景
SocialIQA数据集广泛应用于自然语言处理领域,特别是在社会常识推理任务中。该数据集通过提供多样化的社会情境问题,帮助研究者评估和提升语言模型在复杂社会交互场景中的推理能力。经典使用场景包括问答系统的性能测试、语言模型的鲁棒性评估以及社会常识推理任务的基准测试。
实际应用
在实际应用中,SocialIQA数据集被用于改进智能助手、聊天机器人等对话系统的性能。通过测试模型在不同社会情境下的表现,开发者能够优化模型以更好地理解和回应用户的多样化语言风格。此外,该数据集还被用于教育领域,帮助开发能够理解复杂社会交互的教育工具。
衍生相关工作
SocialIQA数据集衍生了许多相关研究,特别是在语言模型的鲁棒性和公平性评估方面。例如,基于该数据集的研究提出了新的评估框架,如DOCTOR框架,用于测试模型在多样化语言风格下的表现。此外,该数据集还启发了对语言模型在性别、年龄等社会人口统计学维度上的偏见研究,推动了更公平的AI技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录