JTruthfulQA
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://huggingface.co/datasets/nlp-waseda/JTruthfulQA
下载链接
链接失效反馈官方服务:
资源简介:
JTruthfulQA是一个日语版本的TruthfulQA数据集,从头构建而非翻译。数据集包含两种分割:'full'(582个问题)和'without_gpt'(551个问题)。每个问题包含原始答案、正确答案和由四个大型语言模型生成的错误答案。数据集旨在评估大型语言模型在回答日语问题时的准确性。
提供机构:
Kawahara Lab at Waseda University
创建时间:
2025-12-19
原始信息汇总
JTruthfulQA 数据集概述
数据集基本信息
- 名称: JTruthfulQA
- 语言: 日语 (ja)
- 许可证: CC BY-NC-SA 4.0
- 规模类别: 10K < n < 100K
- 下载大小: 386,854 字节
- 数据集大小: 724,280 字节
数据集来源与简介
JTruthfulQA 是 TruthfulQA 的日语版本,并非从原始 TruthfulQA 翻译而来,而是从头构建。该数据集镜像自 JTruthfulQA 代码仓库。
数据集结构与内容
数据特征
- Type: 问题类型 (字符串)
- Category: 问题类别 (字符串)
- Question: 问题文本 (字符串)
- Original Answer: 原始答案 (字符串,由人工创建)
- Correct Answers: 正确答案列表 (字符串序列)
- Incorrect Answers: 错误答案列表 (字符串序列)
数据划分
-
full 划分
- 样本数量: 582
- 数据大小: 412,273 字节
- 包含 3,078 个正确答案和 3,281 个错误答案,总计 6,359 个答案
-
without_gpt 划分
- 样本数量: 551
- 数据大小: 312,007 字节
- 包含 2,125 个正确答案和 2,267 个错误答案,总计 4,392 个答案
- 排除了 GPT-3.5-turbo 生成的答案
问题类型
基准问题分为三种类型:事实 (Fact)、知识 (Knowledge) 和未分类 (Uncategorized)。
任务描述
任务是回答给定的问题。为便于评估大型语言模型生成的答案,对模型的指令是每个问题的答案在 50 个字符以内。
基准性能
数据集提供了人类表现和多个大型语言模型在不同问题类型上的性能基准。人类表现包括允许搜索网络和不允许搜索网络两种情况。
答案构成
每个问题包含人工创建的原始答案。数据集包含由四个大型语言模型生成的正确答案和错误答案,原始答案也被添加到正确答案中。使用的模型包括:
- GPT-3.5-turbo
- stabilityai/japanese-stablelm-instruct-alpha-7b
- elyza/ELYZA-japanese-Llama-2-7b-instruct
- matsuo-lab/weblab-10b-instruction-sft
加载方式
python jtruthfulqa = load_dataset("nlp-waseda/JTruthfulQA", split=<split>)
其中 <split> 为 "full" 或 "without_gpt"。
参考文献
- 中村友亮, 河原大輔. "日本語TruthfulQAの構築". 言語処理学会第30回年次大会. 2024. 第1709–1714页.
致谢
该数据集由 SB Intuitions Corp. 和早稻田大学合作创建。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,评估语言模型真实性已成为关键研究方向。JTruthfulQA作为TruthfulQA的日语版本,并非简单翻译,而是从零开始构建。该数据集包含582个问题,涵盖事实、知识与未分类三种类型,每个问题均附有人工撰写的原始答案,并收集了来自多个大型语言模型生成的正确与错误答案,形成全面对比。构建过程中,研究者还创建了排除GPT-3.5-turbo答案的子集,以支持更细致的分析。
使用方法
使用JTruthfulQA时,研究者可通过HuggingFace库直接加载数据集,选择完整或排除GPT的分割。评估任务要求模型在50字符内回答问题,答案可与提供的正确及错误参考集对比。数据集支持多种自动评估指标,如BLEU、ROUGE和BERTScore,并可计算MC1与MC2分数以衡量模型真实性。用户可参照GitHub仓库中的详细指南进行答案生成与评估,确保实验的一致性与可复现性。
背景与挑战
背景概述
JTruthfulQA数据集由早稻田大学与SB Intuitions公司于2024年合作构建,作为英文TruthfulQA基准的日语版本,旨在评估大型语言模型在日语语境下的真实性回答能力。该数据集并非简单翻译,而是基于日语语言文化背景全新设计,涵盖事实、知识与未分类三类问题,共包含582个问题及数千条人工标注的参考答案与模型生成答案。其核心研究问题聚焦于衡量模型在避免常见错误与偏见的同时,生成准确且符合事实的日语回答,为日语自然语言处理领域的可信人工智能研究提供了关键评估工具。
当前挑战
该数据集针对的领域挑战在于,大型语言模型在日语环境中常因训练数据偏差或文化语境差异而产生事实性错误或误导性回答,JTruthfulQA通过构建多样化问题与精细标注的答案集合,旨在系统检验模型在复杂语义下的真实性表现。构建过程中的主要挑战包括:需在避免直接翻译的前提下,依据日语语言特性与文化背景原创设计问题与答案;同时,为确保评估的严谨性,需协调多个人工标注者进行高质量答案标注,并整合多个主流日语模型生成对比答案,以建立可靠基准。
常用场景
经典使用场景
在自然语言处理领域,评估大型语言模型的真实性能力是提升其可靠性的核心任务。JTruthfulQA作为日语版本的TruthfulQA基准,专门用于测试模型在回答事实性、知识性和未分类问题时的准确性。其经典使用场景涉及要求模型生成不超过50字符的简短答案,通过对比人类参考回答与模型输出,系统评估模型避免常见误解和错误信息的能力。这一过程不仅衡量模型的知识储备,更深入检验其推理的真实性与一致性,为日语语言模型的优化提供了标准化测试环境。
解决学术问题
该数据集旨在解决大型语言模型在生成内容时可能产生的真实性偏差与幻觉问题。在学术研究中,模型往往倾向于输出看似合理但实际错误的信息,尤其在跨语言和文化语境中更为突出。JTruthfulQA通过构建原创的日语问题与答案对,而非简单翻译,有效捕捉了日语特有的语言细微差别和文化背景。它帮助研究者量化模型在事实准确性方面的表现,推动开发更可靠的评估指标,从而促进模型在真实世界应用中的可信度提升,填补了日语自然语言处理领域在真实性评估方面的空白。
实际应用
在实际应用中,JTruthfulQA为开发日语智能助手、搜索引擎和内容生成工具提供了关键的质量控制基准。例如,在构建日语聊天机器人或教育辅助系统时,利用该数据集可以测试模型回答常见问题的准确性,防止传播误导性信息。企业可依据评估结果优化模型参数,确保输出内容符合事实标准。此外,该数据集支持多模型对比,帮助机构选择最适合特定任务的日语语言模型,提升产品在医疗、法律、新闻等高风险领域的应用安全性,增强用户信任。
数据集最近研究
最新研究方向
在自然语言处理领域,大语言模型的可信度评估日益成为研究焦点。JTruthfulQA作为日语版本的TruthfulQA数据集,专门针对日语大语言模型的真实性进行评测,其构建并非简单翻译,而是基于日语语境重新设计,涵盖了事实、知识和未分类三类问题。前沿研究围绕提升模型在日语环境下的真实性表现展开,通过对比人类表现与多种大语言模型(如GPT-3.5-turbo、GPT-4及日语专用模型)的答案准确性,揭示了模型在知识类问题上的显著短板。热点事件包括日语大语言模型的快速发展,如ELYZA-japanese-Llama-2和Japanese StableLM的推出,推动了本土化评测需求的增长。该数据集的影响在于为日语NLP社区提供了标准化的真实性基准,促进了模型优化与跨语言可信度研究的深入,对推动人工智能在日语应用中的可靠性具有重要科学意义。
以上内容由遇见数据集搜集并总结生成



