HSSBench

Name: HSSBench
Creator: 中国电信、北京大学、清华大学、中国科学院、不列颠哥伦比亚大学、中国人民大学
Published: 2025-06-04 21:14:13
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/Zhaolu-K/HSSBench

下载链接

链接失效反馈

官方服务：

资源简介：

HSSBench是一个大规模基准，跨越六个不同的类别和45种类型，包括联合国六种官方语言收集的13,152个样本。该数据集旨在评估多模态大型语言模型（MLLMs）在人文和社会科学（HSS）领域的多语言能力。数据集包括六个关键类别，如地理、艺术、文化、社会科学、历史和经济。数据集的创建过程涉及多个领域专家和自动化代理的合作，以生成和迭代改进每个样本。HSSBench旨在解决MLLMs在HSS领域中的挑战，尤其是在抽象概念与相应视觉表示之间的链接方面。

HSSBench is a large-scale benchmark spanning 6 distinct categories and 45 types, comprising 13,152 samples collected from the six official languages of the United Nations. This dataset is designed to evaluate the multilingual capabilities of Multimodal Large Language Models (MLLMs) in the fields of Humanities and Social Sciences (HSS). It includes six core categories: Geography, Art, Culture, Social Sciences, History, and Economics. The creation of the dataset involved collaboration between multiple domain experts and automated agents to generate and iteratively refine each sample. HSSBench aims to address the challenges faced by MLLMs in the HSS domain, particularly in linking abstract concepts to their corresponding visual representations.

提供机构：

中国电信、北京大学、清华大学、中国科学院、不列颠哥伦比亚大学、中国人民大学

创建时间：

2025-06-04

原始信息汇总

HSSBench数据集概述

数据集简介

名称: HSSBench
目的: 评估多模态大语言模型在人文与社会科学(HSS)领域的能力
特点:
- 关注人文社科领域特有的横向、跨学科思维需求
- 强调抽象概念与视觉表征的深度结合
- 支持联合国六种官方语言的评估

核心特性

评估场景:
- 直接回答(Dr.)与思维链回答(Ct.)
- 多选题(C.)与开放题(O.)
数据生成:
- 采用专家与自动化代理协作的生成流程
- 迭代式样本优化机制

技术规格

数据格式: JSON json { "id": "问题ID", "question": "问题内容", "category": "学科类别", "correct_answer": "正确答案", "options": { "A": "选项A内容", "B": "选项B内容", "C": "选项C内容", "D": "选项D内容" }, "results": { "模型名称": { "output": "模型生成的答案" } } }

评估方法

依赖环境: bash pip install openai tqdm pandas
评估模式:
- GPT评估模式(--use-gpt)
- 正则表达式评估模式(--max-distance)
输出结果:
- 详细评估结果(JSON)
- 准确率统计(CSV)
- 文本格式统计报告

使用示例

多选题评估: bash python eval/json_answer_correction.py --input choice_questions.json --output choice_questions_eval.json --use-gpt --accuracy-csv choice_accuracy.csv
开放题评估: bash python eval/json_answer_correction.py --input open_questions.json --open-questions open_question_ids.jsonl --output data/data-open.jsonl --use-gpt --accuracy-csv open_accuracy.csv
批量评估: bash python eval/json_answer_correction.py --input model1_results.json model2_results.json --output model1_eval.json model2_eval.json --use-gpt --accuracy-csv all_models_accuracy.csv

搜集汇总

数据集介绍

构建方式

HSSBench数据集的构建采用了多阶段协作流程，结合了领域专家与自动化智能体的协同工作。在数据准备阶段，通过专家手工采集与网络信息聚合代理相结合的方式，获取涵盖地理、艺术、文化等六大领域的多模态原始素材。数据构建阶段创新性地设计了双轨制生成管道：专家团队负责问题修订与原创题目设计，确保题目与图像的强关联性；多智能体框架则通过总结器、提取器、问题生成器等角色分工，实现了大规模高质量题目的自动化生产。验证阶段采用智能体去重过滤与专家双重审核机制，严格保证每个样本必须同时依赖文本和图像信息才能解答，从而确保评估的多模态特性。

特点

该数据集具有三大核心特征：跨学科广度覆盖人文社科六大领域45个子类，包含13,152个双语样本；多模态深度整合，所有问题均需结合视觉符号与抽象概念进行解答；评估维度多元，支持选择题与开放式问题、直接回答与思维链推理等多种测评方式。其独特价值在于突破了传统STEM评测的垂直思维模式，通过经济图表分析、艺术品文化符号解读等任务，专门检验模型的横向跨学科关联能力。数据样本均经过联合国六种官方语言本地化，并采用专家标注与模型生成相结合的混合构建方式，在规模与质量间取得平衡。

使用方法

使用该数据集时，研究者可通过视觉问答(VQA)框架对多模态大模型进行全面评估。标准流程包含四种提示策略组合：带选项的思维链推理、带选项的直接回答、开放式思维链推导及开放式直接回答。评估时需特别注意模型在文化符号解读、历史语境理解等任务中表现出的跨模态关联能力。对于非母语评估，建议配合原始图像与专家提供的文本描述进行对比实验，以区分语言理解缺陷与视觉认知不足。数据集的层次化结构支持分领域细粒度分析，尤其适合诊断模型在经济学推理、艺术象征理解等特定子任务上的能力边界。

背景与挑战

背景概述

HSSBench是由中国电信TeleAI、北京大学、清华大学等机构的研究团队于2025年提出的多模态大语言模型评估基准，专注于人文社会科学领域的能力测试。该数据集包含地理、艺术、文化、社会科学、历史和经济学六大类别，涵盖45个子类型，共计13,152个样本，支持联合国六种官方语言的评估。其核心研究问题在于解决当前多模态大语言模型在人文社科领域面临的跨学科横向推理和抽象概念视觉化关联的挑战。该数据集的创新性体现在：1) 首次系统构建了人文社科领域的多模态评估体系；2) 开发了专家与多智能体协同的数据生成管道；3) 揭示了现有模型在非STEM任务上的显著性能缺陷。

当前挑战

HSSBench面临的主要挑战包括：1) 领域问题挑战：人文社科任务需要模型具备跨学科知识关联能力，如将艺术图像与历史背景关联，或从经济图表中推导社会影响，现有模型在此类横向推理中准确率不足60%；2) 构建过程挑战：a) 多模态对齐困难，需确保问题必须同时依赖文本和图像信息；b) 文化敏感性控制，需专家团队对涉及宗教、民族等内容进行严格审核；c) 多语言一致性维护，六种语言的语义对等性验证；d) 时空敏感性处理，对涉及当代社会事件的内容设置有效期限。这些挑战通过创新的多阶段验证流程（包括智能体去重、专家交叉验证等）得到系统性解决。

常用场景

经典使用场景

HSSBench作为多模态大语言模型（MLLMs）在人文与社会科学领域的专用评测基准，其经典使用场景聚焦于跨模态知识迁移能力的评估。例如在艺术史分析任务中，模型需通过识别图像中的青铜器纹饰风格（如饕餮纹、云雷纹），关联到商周时期的礼器文化背景，并回答关于其社会功能的多选题。这种场景典型体现了HSS领域特有的'横向推理'特征——要求模型同时处理视觉符号的具象特征与历史文化语境等抽象概念。

解决学术问题

该数据集有效解决了MLLMs在跨学科知识融合方面的关键研究问题：1）视觉-文本模态的语义对齐难题，如模型需从非洲面具图像中提取几何图案特征并关联到部落仪式文本描述；2）文化符号的多义性理解，如同一宗教图像在不同历史时期的解释差异；3）低资源语言的认知偏差问题，通过联合国六种官方语言平行数据揭示模型在非英语语境下的表现差异。其构建过程中专家与多智能体协作的流水线方法，为领域特异性数据生成提供了方法论创新。

衍生相关工作

该数据集已衍生出三个方向的经典工作：1）评估框架扩展，如MMMU团队基于HSSBench的题型设计的跨学科综合能力测评体系；2）训练方法创新，Qwen-VL系列模型通过HSSBench的微调在文化常识推理任务上提升12.7%准确率；3）新型评测指标，斯坦福人文计算组受其启发提出'文化语境敏感度'量化指标。这些工作共同推动了MLLMs在非物质文化遗产保护、国际关系分析等垂直领域的应用进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集