LIT-RAGBench
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/neoai-inc/LIT-RAGBench
下载链接
链接失效反馈官方服务:
资源简介:
LIT-RAGBench 是一个用于评估检索增强生成(RAG)中生成器能力的基准数据集。该数据集重点关注模型在给定检索文档的情况下是否能正确回答问题,独立于检索质量。数据集包含五个类别:集成、推理、逻辑、表格和弃权。具体内容包含114个人工构建的日语问题及其经过人工校正的机器翻译英文版本。每个示例包含以下字段:问题(question)、参考答案(answer)、问题类型(qa_type)、相关证据块(positive_chunk_list)、不相关块(negative_chunk_list)以及推导答案的推理过程(reasoning_content)。该数据集适用于作为RAG生成器的LLM基准测试、按类别分析模型的优缺点以及开发和评估专门针对RAG的模型。数据集采用知识共享署名-相同方式共享4.0国际(CC BY-SA 4.0)许可协议发布,允许商业使用,但需遵守许可条款,包括署名和以相同方式共享任何衍生作品。
创建时间:
2026-03-30
原始信息汇总
LIT-RAGBench 数据集概述
数据集基本信息
- 数据集名称: LIT-RAGBench
- 语言: 日语 (ja)、英语 (en)
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
- 任务类别: 问答 (question-answering)、文本生成 (text-generation)
- 规模类别: n<1K (小于1000个样本)
- 标签: rag, benchmark, llm, evaluation, question-answering
数据集简介
LIT-RAGBench 是一个用于评估检索增强生成中生成器能力的基准测试。其核心关注点在于,在给定检索到的文档的情况下,模型是否能正确回答问题,独立于检索质量。该基准涵盖五个类别:集成、推理、逻辑、表格和弃权。
数据集内容
- 包含114个人工构建的日语问题。
- 包含一个通过机器翻译并经过人工校对的英文版本。
- 每个示例包含以下字段:
question: 问题answer: 参考答案qa_type: 问题类型positive_chunk_list: 相关证据文本块negative_chunk_list: 不相关文本块reasoning_content: 推导答案的推理过程
预期用途
- 对用作RAG生成器的大型语言模型进行基准测试。
- 按类别分析模型的优势和劣势。
- 开发和评估RAG专用模型。
相关资源
- 代码仓库: 代码、提示词和原始数据集文件可在GitHub仓库获取:https://github.com/Koki-Itai/LIT-RAGBench
- 引用文献: 相关论文信息已提供,标题为“LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation”。
许可证说明
代码和数据根据知识共享署名-相同方式共享 4.0 国际许可证发布。允许商业使用,但必须遵守许可条款,包括署名要求,并且任何衍生作品必须以相同方式共享。
搜集汇总
数据集介绍

构建方式
在检索增强生成领域,构建高质量的评估基准对于衡量模型性能至关重要。LIT-RAGBench的构建过程体现了严谨的设计理念,其核心由114个人工精心构造的日语问题组成,这些问题覆盖了集成、推理、逻辑、表格和弃权五大类别,旨在全面检验生成器在给定检索文档下的能力。随后,通过机器翻译辅以人工校对,生成了对应的英文版本,确保了跨语言评估的可行性。每个数据样本均包含了问题、参考答案、问题类型、相关证据块列表、无关块列表以及推导答案的推理过程,这种结构化的设计为模型评估提供了丰富且可靠的上下文信息。
使用方法
在具体应用层面,LIT-RAGBench为研究者提供了标准化的评估流程。使用者可以加载数据集,将每个样本中的问题连同其正负文档块列表一并输入待评估的大型语言模型,要求模型基于所提供的上下文生成答案。通过将模型输出与数据集中提供的参考答案进行对比,即可计算出模型在各个类别上的准确率等性能指标。该基准尤其适用于对比不同模型作为RAG生成器的效能,或用于开发与优化专为RAG任务设计的模型。相关的评估代码与提示模板已在开源仓库中提供,便于复现实验并进行深入的错误分析。
背景与挑战
背景概述
随着检索增强生成(RAG)技术在大型语言模型应用中的普及,评估模型在给定检索文档下的纯生成能力成为研究焦点。LIT-RAGBench由Koki Itai等人于2026年创建,旨在系统评估RAG框架中生成器的性能,独立于检索质量的影响。该数据集包含114个人工构建的日语问题及其经人工校对的英文翻译版本,覆盖整合、推理、逻辑、表格与弃权五大类别,为分析模型在不同认知任务上的表现提供了标准化基准,推动了RAG专用模型的发展与优化。
当前挑战
LIT-RAGBench致力于解决RAG系统中生成器能力的评估挑战,核心在于衡量模型如何有效利用给定文档进行准确回答,而非依赖检索环节。构建过程中的挑战包括人工设计涵盖多类别的高质量日语问题,确保其复杂性与多样性;同时,机器翻译生成的英文版本需经人工细致校对,以维持语义一致性与评估的公平性。这些挑战要求数据集在语言与文化层面均具备精确的标注与严谨的结构设计。
常用场景
经典使用场景
在检索增强生成(RAG)领域,LIT-RAGBench 作为一项专门评估生成器能力的基准,其经典使用场景聚焦于剥离检索质量的影响,独立衡量大型语言模型在给定相关文档片段后生成准确答案的性能。研究者通过该数据集提供的集成、推理、逻辑、表格和弃权五大类别问题,系统性地测试模型如何有效融合外部知识进行回答,从而深入剖析生成环节的效能瓶颈。
解决学术问题
该数据集主要解决了RAG系统中生成器模块评估标准缺失的学术研究问题。传统评估往往混淆检索与生成环节的贡献,LIT-RAGBench通过提供人工构建的问题及标注的相关与无关文档块,使得研究者能够精准量化模型在信息整合、多步推理、逻辑一致性及表格理解等方面的纯生成能力。其意义在于为RAG生成器的能力诊断与比较提供了可控、细粒度的评估框架,推动了生成模型在知识增强场景下的可解释性研究。
实际应用
在实际应用层面,LIT-RAGBench 为开发高性能RAG系统提供了关键的评估工具。企业或研究团队可利用该基准测试不同大型语言模型作为生成核心时的表现,识别其在处理复杂查询、需要深层推理或处理结构化数据时的弱点。这直接指导了面向客服问答、知识库交互、报告生成等实际场景的RAG模型选型与优化,确保系统在引入外部知识时能可靠地产生准确、连贯的答案。
数据集最近研究
最新研究方向
在检索增强生成(RAG)领域,评估生成器的核心能力已成为推动大语言模型发展的关键议题。LIT-RAGBench作为专注于生成器性能的基准测试,其最新研究方向聚焦于模型在给定检索文档下的精确推理与信息整合能力,尤其关注集成、逻辑、表格处理及主动弃答等复杂场景。该数据集通过人工构建的日语问题及其英译版本,为研究者提供了细粒度的分析工具,助力开发更鲁棒的RAG专用模型,并深入剖析模型在跨语言与多模态理解中的潜在瓶颈,对提升实际应用中的问答系统可靠性具有显著意义。
以上内容由遇见数据集搜集并总结生成



