CharToM-QA
收藏Hugging Face2025-04-07 更新2025-04-08 收录
下载链接:
https://huggingface.co/datasets/ZeroXeno/CharToM-QA
下载链接
链接失效反馈官方服务:
资源简介:
CharToM-QA是一个包含1035个基于经典小说角色的理论心灵(ToM)问题的数据集,用于评估模型在故事情节背景下的ToM相关问题回答能力。数据集涵盖了信念、意图、情感和欲望四个维度,并支持生成式问题和多项选择题两种QA实验形式。
创建时间:
2025-03-29
搜集汇总
数据集介绍

构建方式
在心理理论(ToM)研究领域,CharToM-QA数据集的构建采用了经典小说人物分析的方法论框架。研究团队从19部世界文学名著中提取了1,035个具有代表性的故事情节片段,通过专家标注的方式构建了涵盖信念、意图、情感和欲望四个维度的问答对。每个数据项包含不同长度的上下文窗口(0/1000/2000字符)、精心设计的问题、标准答案以及干扰选项,确保了数据在保持文学原貌的同时满足研究需求。
特点
该数据集最显著的特征在于其深厚的文学底蕴和多维度的心理理论评估体系。基于《安娜·卡列尼娜》《战争与和平》等经典文本构建的问答对,天然具备复杂的社会情境和细腻的人物心理描写。数据集特别设计了奖励点机制,通过GPT-4评估模型对答案质量的覆盖度,在生成式问答和多选题两种模式下,能够全面评估模型对人物心理状态的理解深度。统计显示,情感维度的问题占比最高(463题),而欲望维度的问题则设置了更精细的奖励点分级。
使用方法
研究者可通过HuggingFace平台直接加载parquet格式的数据文件,利用配套的Python评估脚本进行模型测试。数据集支持两种实验范式:生成式问答要求模型根据文本上下文生成开放式回答,评估时需比对标准答案的奖励点覆盖率;多选题模式则提供四个选项供模型选择。官方提供的评估工具可自动计算奖励点覆盖率和错误率,其中情感维度的问题因复杂度较高,建议作为模型性能的重点测试方向。对于文学认知计算领域的研究,该数据集能有效检验模型对长篇叙事文本中人物心理的推理能力。
背景与挑战
背景概述
CharToM-QA数据集由Zhou等学者在2025年提出,旨在探索心智理论(Theory of Mind, ToM)在自然语言处理领域的应用。该数据集基于经典小说中的角色构建,包含1,035个涉及信念、意图、情感和欲望四个维度的问答对,旨在评估大语言模型在复杂社会情境下的心智推理能力。通过从《安娜·卡列尼娜》等20部文学作品中提取情节片段,数据集不仅丰富了社会交互场景的多样性,还突破了传统数据集依赖预设规则的局限,为ToM研究提供了更贴近真实语境的评估基准。
当前挑战
CharToM-QA面临的挑战主要体现在两个方面:领域问题层面,心智理论本身具有高度抽象性,模型需同时解析文本表层语义与深层社会关系,而小说角色间复杂的动态交互进一步增加了推理难度;数据构建层面,情节片段的提取需平衡上下文完整性与信息密度,人工标注时需严格遵循四维度分类框架,且误导选项的设计要求对角色心理状态进行对抗性建模,这些过程均涉及语言学与认知科学的交叉验证。
常用场景
经典使用场景
在认知科学和自然语言处理领域,CharToM-QA数据集被广泛应用于评估大型语言模型在心理理论(ToM)任务中的表现。通过基于经典小说情节设计的1035个问题,该数据集能够全面测试模型在理解角色信念、意图、情感和欲望等复杂心理状态方面的能力。其独特的生成式问答和多项选择问答两种形式,为研究者提供了多维度的模型评估框架。
衍生相关工作
基于CharToM-QA的基准测试,研究者已发展出多项创新工作。MIT团队开发了Context-Aware ToM评估框架,通过动态上下文窗口增强模型的情境理解能力。DeepMind提出的Meta-ToM方法利用该数据集进行元学习,显著提升了模型在新情境下的心理状态推理能力。此外,斯坦福大学构建的多模态ToM评估体系,将文本数据与角色视觉表征相结合,开创了跨模态心理理论研究的新范式。
数据集最近研究
最新研究方向
随着大语言模型在复杂认知任务中的广泛应用,CharToM-QA数据集为心理理论(ToM)研究开辟了新的评估维度。该数据集基于经典小说人物构建的多样化社会场景,聚焦信念、意图、情感和欲望四个核心维度,为探索模型在复杂社会关系理解方面的能力提供了独特视角。近期研究重点集中在如何通过多上下文窗口机制增强模型对长文本社会线索的捕捉能力,以及对比生成式问答与多选问答在ToM评估中的效度差异。该数据集的出现恰逢人工智能伦理讨论升温之际,其对社会认知能力的量化评估方法,为构建更具人文关怀的AI系统提供了重要基准。
以上内容由遇见数据集搜集并总结生成



