YokaiEval

github2025-03-18 更新2025-04-13 收录

下载链接：

https://github.com/CyberAgentAILab/YokaiEval

下载链接

链接失效反馈

官方服务：

资源简介：

YokaiEval是一个用于评估语言模型中妖怪知识的数据集。它包含自动生成的多选题（4选项）问题和答案，可用于评估多个大型语言模型（LLM）的性能。

YokaiEval is a dataset designed to assess the knowledge of yokai in language models. It includes automatically generated multiple-choice questions (with 4 options) and answers, which can be used to evaluate the performance of various large language models (LLM).

创建时间：

2025-03-18

原始信息汇总

YokaiEval: Yokai Knowledge Evaluation Dataset

数据集概述

名称：YokaiEval
类型：LLM评估基准数据集
领域：日本妖怪知识
数据格式：多项选择题（4选项）
可用性：Hugging Face平台公开

主要功能

提供LLM评估基准测试框架
支持自动生成特定领域的多项选择题和选项
支持为多个LLM生成答案
使用GPT-4o进行答案评估和基准测试

数据集构建方法

从信息源准备参考数据（参考yokai_list.json格式）
使用4-shot提示模板生成问题和选项
对生成的问题进行验证和过滤

技术特性

编程语言：Python 3.10
依赖管理：uv包管理器
硬件要求：GPU环境（用于LLM推理）

使用流程

模型评估：
- 生成LLM答案
- 使用GPT-4进行答案评判
- 计算得分
自定义数据集构建：
- 准备领域信息源
- 修改提示模板
- 生成并验证问题

结果展示

包含妖怪知识评估得分可视化结果
提供MT-Bench与YokaiEval的对比结果

参考文献

堤歩斗, 陣内佑. (2025). LLMは日本の民話を知っているか？妖怪知識評価データセットの構築へ向けて. 言語処理学会第31回年次大会.

搜集汇总

数据集介绍

构建方式

在构建YokaiEval数据集时，研究团队采用了自动化的方法生成特定领域的多项选择题。首先，通过参考信息源创建类似data/yokai_list.json的文件，作为数据集的基础。随后，利用4-shot提示模板生成问题和选项，确保问题与日本妖怪知识相关。生成的问题经过验证和过滤，以保证其质量和准确性。整个过程结合了自动化脚本和人工校验，确保数据集的专业性和可靠性。

特点

YokaiEval数据集以其专注于日本妖怪知识的特点脱颖而出。该数据集包含自动生成的4选项多项选择题，专为评估大型语言模型在特定领域的知识而设计。通过GPT-4o对模型生成的答案进行评估，数据集能够提供全面的基准测试结果。此外，数据集的构建方法具有通用性，可扩展至其他领域，为研究者提供了灵活的工具。

使用方法

使用YokaiEval数据集进行模型评估分为几个步骤。首先，通过main.py脚本生成模型对问题的回答，并将结果存储在指定目录中。随后，利用GPT-4作为评估模型，对生成的答案进行评判。最后，通过可视化脚本计算并展示评分结果。整个过程支持自定义领域的数据集构建，研究者可根据需要修改提示模板和信息源，以适应不同的评估需求。

背景与挑战

背景概述

YokaiEval是由CyberAgent公司研发的专注于日本妖怪知识评估的数据集，旨在通过构建多选问答形式，评估大型语言模型（LLM）在特定文化领域的知识掌握程度。该数据集于2025年由堤歩斗和陣内佑等研究人员在语言处理学会第31届年会上首次提出，其核心研究问题聚焦于LLM对日本民俗文化中妖怪知识的理解能力。通过自动生成四选一问题并利用GPT-4o进行答案评估，YokaiEval为跨文化自然语言处理研究提供了重要基准，填补了非英语文化领域评估工具的空白。

当前挑战

YokaiEval面临的主要挑战包括两个方面：在领域问题层面，如何准确评估LLM对文化特异性知识的掌握程度，特别是针对日本妖怪这类富含隐喻和地域差异的复杂概念；在构建过程层面，自动生成具有文化准确性的多选问题存在技术难度，需克服语义歧义和知识覆盖不全等问题。此外，评估环节依赖GPT-4o作为评判标准，可能引入模型偏见，且对低资源语言的评估效度仍需验证。数据集的可扩展性也面临挑战，如何将构建方法适配到其他文化领域仍需探索。

常用场景

经典使用场景

在自然语言处理领域，YokaiEval数据集为评估大型语言模型（LLM）在特定文化领域的知识掌握程度提供了标准化工具。该数据集通过自动生成关于日本妖怪文化的多项选择题，为研究者提供了一个可复现的评估框架。其典型应用场景包括测试模型对日本民俗文化的理解深度，以及比较不同模型在特定领域的知识差异。

衍生相关工作

基于YokaiEval的设计理念，研究者们已拓展出多个相关评估体系。包括针对其他民俗文化的知识评估框架，以及融合多模态数据的进阶版本。其方法论启发了诸如'FolkloreBench'等衍生工作，形成了一套完整的文化知识评估体系。这些发展共同推动了AI文化理解能力的标准化测评进程。

数据集最近研究