LIT-RAGBench

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/neoai-inc/LIT-RAGBench

下载链接

链接失效反馈

官方服务：

资源简介：

LIT-RAGBench 是一个用于评估检索增强生成（RAG）中生成器能力的基准数据集。该数据集重点关注模型在给定检索文档的情况下是否能正确回答问题，独立于检索质量。数据集包含五个类别：集成、推理、逻辑、表格和弃权。具体内容包含114个人工构建的日语问题及其经过人工校正的机器翻译英文版本。每个示例包含以下字段：问题（question）、参考答案（answer）、问题类型（qa_type）、相关证据块（positive_chunk_list）、不相关块（negative_chunk_list）以及推导答案的推理过程（reasoning_content）。该数据集适用于作为RAG生成器的LLM基准测试、按类别分析模型的优缺点以及开发和评估专门针对RAG的模型。数据集采用知识共享署名-相同方式共享4.0国际（CC BY-SA 4.0）许可协议发布，允许商业使用，但需遵守许可条款，包括署名和以相同方式共享任何衍生作品。

创建时间：

2026-03-30

原始信息汇总

LIT-RAGBench 数据集概述

数据集基本信息

数据集名称: LIT-RAGBench
语言: 日语 (ja)、英语 (en)
许可证: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
任务类别: 问答 (question-answering)、文本生成 (text-generation)
规模类别: n<1K (小于1000个样本)
标签: rag, benchmark, llm, evaluation, question-answering

数据集简介

LIT-RAGBench 是一个用于评估检索增强生成中生成器能力的基准测试。其核心关注点在于，在给定检索到的文档的情况下，模型是否能正确回答问题，独立于检索质量。该基准涵盖五个类别：集成、推理、逻辑、表格和弃权。

数据集内容

包含114个人工构建的日语问题。
包含一个通过机器翻译并经过人工校对的英文版本。
每个示例包含以下字段：
- question: 问题
- answer: 参考答案
- qa_type: 问题类型
- positive_chunk_list: 相关证据文本块
- negative_chunk_list: 不相关文本块
- reasoning_content: 推导答案的推理过程

预期用途

对用作RAG生成器的大型语言模型进行基准测试。
按类别分析模型的优势和劣势。
开发和评估RAG专用模型。

许可证说明

代码和数据根据知识共享署名-相同方式共享 4.0 国际许可证发布。允许商业使用，但必须遵守许可条款，包括署名要求，并且任何衍生作品必须以相同方式共享。

搜集汇总

数据集介绍

构建方式

在检索增强生成领域，构建高质量的评估基准对于衡量模型性能至关重要。LIT-RAGBench的构建过程体现了严谨的设计理念，其核心由114个人工精心构造的日语问题组成，这些问题覆盖了集成、推理、逻辑、表格和弃权五大类别，旨在全面检验生成器在给定检索文档下的能力。随后，通过机器翻译辅以人工校对，生成了对应的英文版本，确保了跨语言评估的可行性。每个数据样本均包含了问题、参考答案、问题类型、相关证据块列表、无关块列表以及推导答案的推理过程，这种结构化的设计为模型评估提供了丰富且可靠的上下文信息。

使用方法

在具体应用层面，LIT-RAGBench为研究者提供了标准化的评估流程。使用者可以加载数据集，将每个样本中的问题连同其正负文档块列表一并输入待评估的大型语言模型，要求模型基于所提供的上下文生成答案。通过将模型输出与数据集中提供的参考答案进行对比，即可计算出模型在各个类别上的准确率等性能指标。该基准尤其适用于对比不同模型作为RAG生成器的效能，或用于开发与优化专为RAG任务设计的模型。相关的评估代码与提示模板已在开源仓库中提供，便于复现实验并进行深入的错误分析。

背景与挑战

背景概述

随着检索增强生成（RAG）技术在大型语言模型应用中的普及，评估模型在给定检索文档下的纯生成能力成为研究焦点。LIT-RAGBench由Koki Itai等人于2026年创建，旨在系统评估RAG框架中生成器的性能，独立于检索质量的影响。该数据集包含114个人工构建的日语问题及其经人工校对的英文翻译版本，覆盖整合、推理、逻辑、表格与弃权五大类别，为分析模型在不同认知任务上的表现提供了标准化基准，推动了RAG专用模型的发展与优化。

当前挑战

LIT-RAGBench致力于解决RAG系统中生成器能力的评估挑战，核心在于衡量模型如何有效利用给定文档进行准确回答，而非依赖检索环节。构建过程中的挑战包括人工设计涵盖多类别的高质量日语问题，确保其复杂性与多样性；同时，机器翻译生成的英文版本需经人工细致校对，以维持语义一致性与评估的公平性。这些挑战要求数据集在语言与文化层面均具备精确的标注与严谨的结构设计。

常用场景

经典使用场景

在检索增强生成（RAG）领域，LIT-RAGBench 作为一项专门评估生成器能力的基准，其经典使用场景聚焦于剥离检索质量的影响，独立衡量大型语言模型在给定相关文档片段后生成准确答案的性能。研究者通过该数据集提供的集成、推理、逻辑、表格和弃权五大类别问题，系统性地测试模型如何有效融合外部知识进行回答，从而深入剖析生成环节的效能瓶颈。

解决学术问题

该数据集主要解决了RAG系统中生成器模块评估标准缺失的学术研究问题。传统评估往往混淆检索与生成环节的贡献，LIT-RAGBench通过提供人工构建的问题及标注的相关与无关文档块，使得研究者能够精准量化模型在信息整合、多步推理、逻辑一致性及表格理解等方面的纯生成能力。其意义在于为RAG生成器的能力诊断与比较提供了可控、细粒度的评估框架，推动了生成模型在知识增强场景下的可解释性研究。

实际应用

在实际应用层面，LIT-RAGBench 为开发高性能RAG系统提供了关键的评估工具。企业或研究团队可利用该基准测试不同大型语言模型作为生成核心时的表现，识别其在处理复杂查询、需要深层推理或处理结构化数据时的弱点。这直接指导了面向客服问答、知识库交互、报告生成等实际场景的RAG模型选型与优化，确保系统在引入外部知识时能可靠地产生准确、连贯的答案。

数据集最近研究