five

YokaiEval

收藏
github2025-03-18 更新2025-04-13 收录
下载链接:
https://github.com/CyberAgentAILab/YokaiEval
下载链接
链接失效反馈
官方服务:
资源简介:
YokaiEval是一个用于评估语言模型中妖怪知识的数据集。它包含自动生成的多选题(4选项)问题和答案,可用于评估多个大型语言模型(LLM)的性能。

YokaiEval is a dataset designed to assess the knowledge of yokai in language models. It includes automatically generated multiple-choice questions (with 4 options) and answers, which can be used to evaluate the performance of various large language models (LLM).
创建时间:
2025-03-18
原始信息汇总

YokaiEval: Yokai Knowledge Evaluation Dataset

数据集概述

  • 名称:YokaiEval
  • 类型:LLM评估基准数据集
  • 领域:日本妖怪知识
  • 数据格式:多项选择题(4选项)
  • 可用性:Hugging Face平台公开

主要功能

  • 提供LLM评估基准测试框架
  • 支持自动生成特定领域的多项选择题和选项
  • 支持为多个LLM生成答案
  • 使用GPT-4o进行答案评估和基准测试

数据集构建方法

  1. 从信息源准备参考数据(参考yokai_list.json格式)
  2. 使用4-shot提示模板生成问题和选项
  3. 对生成的问题进行验证和过滤

技术特性

  • 编程语言:Python 3.10
  • 依赖管理:uv包管理器
  • 硬件要求:GPU环境(用于LLM推理)

使用流程

  1. 模型评估:

    • 生成LLM答案
    • 使用GPT-4进行答案评判
    • 计算得分
  2. 自定义数据集构建:

    • 准备领域信息源
    • 修改提示模板
    • 生成并验证问题

结果展示

  • 包含妖怪知识评估得分可视化结果
  • 提供MT-Bench与YokaiEval的对比结果

参考文献

堤歩斗, 陣内佑. (2025). LLMは日本の民話を知っているか?妖怪知識評価データセットの構築へ向けて. 言語処理学会第31回年次大会.

搜集汇总
数据集介绍
main_image_url
构建方式
在构建YokaiEval数据集时,研究团队采用了自动化的方法生成特定领域的多项选择题。首先,通过参考信息源创建类似data/yokai_list.json的文件,作为数据集的基础。随后,利用4-shot提示模板生成问题和选项,确保问题与日本妖怪知识相关。生成的问题经过验证和过滤,以保证其质量和准确性。整个过程结合了自动化脚本和人工校验,确保数据集的专业性和可靠性。
特点
YokaiEval数据集以其专注于日本妖怪知识的特点脱颖而出。该数据集包含自动生成的4选项多项选择题,专为评估大型语言模型在特定领域的知识而设计。通过GPT-4o对模型生成的答案进行评估,数据集能够提供全面的基准测试结果。此外,数据集的构建方法具有通用性,可扩展至其他领域,为研究者提供了灵活的工具。
使用方法
使用YokaiEval数据集进行模型评估分为几个步骤。首先,通过main.py脚本生成模型对问题的回答,并将结果存储在指定目录中。随后,利用GPT-4作为评估模型,对生成的答案进行评判。最后,通过可视化脚本计算并展示评分结果。整个过程支持自定义领域的数据集构建,研究者可根据需要修改提示模板和信息源,以适应不同的评估需求。
背景与挑战
背景概述
YokaiEval是由CyberAgent公司研发的专注于日本妖怪知识评估的数据集,旨在通过构建多选问答形式,评估大型语言模型(LLM)在特定文化领域的知识掌握程度。该数据集于2025年由堤歩斗和陣内佑等研究人员在语言处理学会第31届年会上首次提出,其核心研究问题聚焦于LLM对日本民俗文化中妖怪知识的理解能力。通过自动生成四选一问题并利用GPT-4o进行答案评估,YokaiEval为跨文化自然语言处理研究提供了重要基准,填补了非英语文化领域评估工具的空白。
当前挑战
YokaiEval面临的主要挑战包括两个方面:在领域问题层面,如何准确评估LLM对文化特异性知识的掌握程度,特别是针对日本妖怪这类富含隐喻和地域差异的复杂概念;在构建过程层面,自动生成具有文化准确性的多选问题存在技术难度,需克服语义歧义和知识覆盖不全等问题。此外,评估环节依赖GPT-4o作为评判标准,可能引入模型偏见,且对低资源语言的评估效度仍需验证。数据集的可扩展性也面临挑战,如何将构建方法适配到其他文化领域仍需探索。
常用场景
经典使用场景
在自然语言处理领域,YokaiEval数据集为评估大型语言模型(LLM)在特定文化领域的知识掌握程度提供了标准化工具。该数据集通过自动生成关于日本妖怪文化的多项选择题,为研究者提供了一个可复现的评估框架。其典型应用场景包括测试模型对日本民俗文化的理解深度,以及比较不同模型在特定领域的知识差异。
衍生相关工作
基于YokaiEval的设计理念,研究者们已拓展出多个相关评估体系。包括针对其他民俗文化的知识评估框架,以及融合多模态数据的进阶版本。其方法论启发了诸如'FolkloreBench'等衍生工作,形成了一套完整的文化知识评估体系。这些发展共同推动了AI文化理解能力的标准化测评进程。
数据集最近研究
最新研究方向
在自然语言处理领域,YokaiEval数据集以其独特的文化背景和创新的评估方法引起了广泛关注。该数据集专注于日本妖怪知识的多选题生成与评估,为大型语言模型在特定文化领域的知识掌握能力提供了量化标准。近期研究聚焦于如何利用类似方法构建其他文化领域的评估基准,探索跨文化知识评估的通用框架。随着GPT-4o等先进模型的应用,研究者们正在开发更精准的自动评分机制,同时关注模型对非主流文化知识的理解偏差。这项工作不仅推动了文化敏感型AI的发展,也为知识评估体系的标准化提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作