Thunder-NUBench
收藏arXiv2025-06-18 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/thunder-research-group/SNU_Thunder-NUBench
下载链接
链接失效反馈官方服务:
资源简介:
Thunder-NUBench是一个新的大型语言模型(LLM)句子级否定理解基准,旨在评估LLM在句子层面的否定理解能力。该基准通过对比标准否定与结构多样化的替代方案(如局部否定、矛盾和释义)来超越表面层次的提示检测。基准由手动整理的句子-否定对和多项选择数据集组成,使模型能够深入了解否定理解。Thunder-NUBench的数据集生成基于HoVer数据集和Wikipedia摘要数据集,这两个数据集因其事实内容和复杂的句子结构而被选为基准数据集的构建基础。数据集的生成过程包括从原始数据集中提取句子、预处理、构建句子-否定对和多项选择数据集、以及人工审核和修订等步骤。Thunder-NUBench旨在解决LLM在处理否定理解方面的挑战,为未来LLM在否定理解方面的发展提供一个强有力的评估标准。
提供机构:
首尔国立大学数据科学研究生院
创建时间:
2025-06-17



