YokaiEval
收藏github2025-03-18 更新2025-04-13 收录
下载链接:
https://github.com/CyberAgentAILab/YokaiEval
下载链接
链接失效反馈官方服务:
资源简介:
YokaiEval是一个用于评估语言模型中妖怪知识的数据集。它包含自动生成的多选题(4选项)问题和答案,可用于评估多个大型语言模型(LLM)的性能。
YokaiEval is a dataset designed to assess the knowledge of yokai in language models. It includes automatically generated multiple-choice questions (with 4 options) and answers, which can be used to evaluate the performance of various large language models (LLM).
创建时间:
2025-03-18
原始信息汇总
YokaiEval: Yokai Knowledge Evaluation Dataset
数据集概述
- 名称:YokaiEval
- 类型:LLM评估基准数据集
- 领域:日本妖怪知识
- 数据格式:多项选择题(4选项)
- 可用性:Hugging Face平台公开
主要功能
- 提供LLM评估基准测试框架
- 支持自动生成特定领域的多项选择题和选项
- 支持为多个LLM生成答案
- 使用GPT-4o进行答案评估和基准测试
数据集构建方法
- 从信息源准备参考数据(参考yokai_list.json格式)
- 使用4-shot提示模板生成问题和选项
- 对生成的问题进行验证和过滤
技术特性
- 编程语言:Python 3.10
- 依赖管理:uv包管理器
- 硬件要求:GPU环境(用于LLM推理)
使用流程
-
模型评估:
- 生成LLM答案
- 使用GPT-4进行答案评判
- 计算得分
-
自定义数据集构建:
- 准备领域信息源
- 修改提示模板
- 生成并验证问题
结果展示
- 包含妖怪知识评估得分可视化结果
- 提供MT-Bench与YokaiEval的对比结果
参考文献
堤歩斗, 陣内佑. (2025). LLMは日本の民話を知っているか?妖怪知識評価データセットの構築へ向けて. 言語処理学会第31回年次大会.
搜集汇总
数据集介绍

构建方式
在构建YokaiEval数据集时,研究团队采用了自动化的方法生成特定领域的多项选择题。首先,通过参考信息源创建类似data/yokai_list.json的文件,作为数据集的基础。随后,利用4-shot提示模板生成问题和选项,确保问题与日本妖怪知识相关。生成的问题经过验证和过滤,以保证其质量和准确性。整个过程结合了自动化脚本和人工校验,确保数据集的专业性和可靠性。
特点
YokaiEval数据集以其专注于日本妖怪知识的特点脱颖而出。该数据集包含自动生成的4选项多项选择题,专为评估大型语言模型在特定领域的知识而设计。通过GPT-4o对模型生成的答案进行评估,数据集能够提供全面的基准测试结果。此外,数据集的构建方法具有通用性,可扩展至其他领域,为研究者提供了灵活的工具。
使用方法
使用YokaiEval数据集进行模型评估分为几个步骤。首先,通过main.py脚本生成模型对问题的回答,并将结果存储在指定目录中。随后,利用GPT-4作为评估模型,对生成的答案进行评判。最后,通过可视化脚本计算并展示评分结果。整个过程支持自定义领域的数据集构建,研究者可根据需要修改提示模板和信息源,以适应不同的评估需求。
背景与挑战
背景概述
YokaiEval是由CyberAgent公司研发的专注于日本妖怪知识评估的数据集,旨在通过构建多选问答形式,评估大型语言模型(LLM)在特定文化领域的知识掌握程度。该数据集于2025年由堤歩斗和陣内佑等研究人员在语言处理学会第31届年会上首次提出,其核心研究问题聚焦于LLM对日本民俗文化中妖怪知识的理解能力。通过自动生成四选一问题并利用GPT-4o进行答案评估,YokaiEval为跨文化自然语言处理研究提供了重要基准,填补了非英语文化领域评估工具的空白。
当前挑战
YokaiEval面临的主要挑战包括两个方面:在领域问题层面,如何准确评估LLM对文化特异性知识的掌握程度,特别是针对日本妖怪这类富含隐喻和地域差异的复杂概念;在构建过程层面,自动生成具有文化准确性的多选问题存在技术难度,需克服语义歧义和知识覆盖不全等问题。此外,评估环节依赖GPT-4o作为评判标准,可能引入模型偏见,且对低资源语言的评估效度仍需验证。数据集的可扩展性也面临挑战,如何将构建方法适配到其他文化领域仍需探索。
常用场景
经典使用场景
在自然语言处理领域,YokaiEval数据集为评估大型语言模型(LLM)在特定文化领域的知识掌握程度提供了标准化工具。该数据集通过自动生成关于日本妖怪文化的多项选择题,为研究者提供了一个可复现的评估框架。其典型应用场景包括测试模型对日本民俗文化的理解深度,以及比较不同模型在特定领域的知识差异。
衍生相关工作
基于YokaiEval的设计理念,研究者们已拓展出多个相关评估体系。包括针对其他民俗文化的知识评估框架,以及融合多模态数据的进阶版本。其方法论启发了诸如'FolkloreBench'等衍生工作,形成了一套完整的文化知识评估体系。这些发展共同推动了AI文化理解能力的标准化测评进程。
数据集最近研究
最新研究方向
在自然语言处理领域,YokaiEval数据集以其独特的文化背景和创新的评估方法引起了广泛关注。该数据集专注于日本妖怪知识的多选题生成与评估,为大型语言模型在特定文化领域的知识掌握能力提供了量化标准。近期研究聚焦于如何利用类似方法构建其他文化领域的评估基准,探索跨文化知识评估的通用框架。随着GPT-4o等先进模型的应用,研究者们正在开发更精准的自动评分机制,同时关注模型对非主流文化知识的理解偏差。这项工作不仅推动了文化敏感型AI的发展,也为知识评估体系的标准化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



