five

rag-eval-ja-repro

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/SakataConsul/rag-eval-ja-repro
下载链接
链接失效反馈
官方服务:
资源简介:
RAG Eval JA Repro 是一个专为日语检索增强生成(RAG)系统评估设计的复现性增强数据集。它基于上游数据集 allganize/RAG-Evaluation-Dataset-JA 派生而来,旨在解决原始数据集在严格复现时可能遇到的文档版本一致性问题。数据集包含300个评估项目的CSV文件,每个项目对应从65份真实世界日语PDF文档(涵盖金融、IT、制造、公共事务、零售等领域)中提取的问答对。数据集保留了原始的所有列,并新增了 question_new、target_answer_new、target_page_no_new 列,以及用于说明修改类型的 change_type 和提供具体PDF依据的 change_reason 列。其中,对22个项目(约7.3%)提出了修正建议,包括4处拼写订正、14处答案修正和4处问题重写,其余278项标记为未更改。这些修正均基于对实际PDF内容的核对,并提供了详细的引用依据。为确保评估的复现性,数据集提供了完整的文档获取清单,其中为每份源PDF提供了Wayback Machine的固定存档URL和SHA-256校验值,用户可通过配套脚本获取字节级完全相同的文档副本。数据集本身不包含PDF文件,仅提供元数据和获取工具。该数据集主要用于开发和评估日语RAG系统的性能,特别适用于需要严格保证评估基准一致性和可复现性的研究场景。数据集文件以MIT许可证发布,但源PDF的版权仍归其原始发布者所有。

RAG Eval JA Repro is a reproducibility-enhanced dataset specifically designed for evaluating Japanese Retrieval-Augmented Generation (RAG) systems. It is derived from the upstream dataset allganize/RAG-Evaluation-Dataset-JA and aims to address potential document version consistency issues encountered during strict reproduction of the original dataset. The core of the dataset is a CSV file containing 300 evaluation items, each corresponding to a question-answer pair extracted from 65 real-world Japanese PDF documents (covering fields such as finance, IT, manufacturing, public affairs, and retail). The dataset retains all original columns and adds new columns including question_new, target_answer_new, target_page_no_new, as well as change_type to indicate modification types and change_reason to provide specific PDF-based justifications. Among these, 22 items (approximately 7.3%) have proposed corrections, including 4 spelling fixes, 14 answer corrections, and 4 question rewrites, with the remaining 278 items marked as unchanged. These corrections are based on verification against actual PDF content and include detailed citation evidence. To ensure reproducibility of evaluations, the dataset provides a complete document acquisition manifest, which includes fixed Wayback Machine archive URLs and SHA-256 checksums for each source PDF, allowing users to obtain byte-identical document copies via accompanying scripts. The dataset itself does not include PDF files, only metadata and acquisition tools. It is primarily used for developing and evaluating the performance of Japanese RAG systems, particularly in research scenarios that require strict consistency and reproducibility of evaluation benchmarks. The dataset files are released under the MIT license, but the copyright of the source PDFs remains with their original publishers.
创建时间:
2026-06-28
原始信息汇总

数据集概述

数据集名称: RAG Eval JA Repro
数据集地址: https://huggingface.co/datasets/SakataConsul/rag-eval-ja-repro
许可证: MIT
语言: 日语
任务类别: 问答
标签: RAG、评估、日语、可复现性、检索增强生成
源数据集: allganize/RAG-Evaluation-Dataset-JA
数据集配置: default(test 分片,数据文件为 rag_evaluation_master.csv


数据集定位

本数据集是源数据集 allganize/RAG-Evaluation-Dataset-JA派生可复现数据集,不修改源数据,而是补充了以下两种辅助资源,确保基于具体 PDF 文件的 RAG 评估可复现:

  1. 再現用評価基準CSV: 在源 CSV 基础上新增 target_answer_newquestion_newtarget_page_no_new 等列,基于实物 PDF 进行修正并附有每项的修正理由。
  2. 文書マニフェスト: 包含 65 份 PDF 文件的 Wayback 固定 URL 及 SHA-256 校验和,以及获取脚本,确保可获取字节完全相同的源 PDF。

源数据集的修订版本、最后修改时间、CSV 文件名及 SHA-256 校验和均被明确记录,即使将来源数据集更新,本数据集的来源也可追溯。


数据集内容

文件结构:

  • rag_evaluation_master.csv:主 CSV 文件(12 列),即再現用評価基準CSV。
  • build_master_csv.py:用于生成该 CSV 的脚本(确定性、可重复生成字节一致的文件)。
  • documents_manifest.csv:65 份 PDF 的元数据(域名/标题/出版商/文件/页数/SHA-256/源URL/存档固定 URL)。
  • documents_checksums.sha256:65 份 PDF 的 SHA-256 校验和文件。
  • download_documents.py:优先从存档固定 URL 获取 PDF 的脚本。
  • download_sources.csv:获取来源列表。
  • REPRODUCTION.md:再现性检查清单。
  • NOTICE:归属与许可证声明。
  • PDF 二进制文件不包含在内(避免再分发)。

CSV 新增列(共 5 列,保留原始列)

列名 说明
question_new / target_answer_new / target_page_no_new 基于实物 PDF 的修正后问题、答案、参考页(未修正时与原始列相同)
change_type 变更类型:unchanged(未修改,278项)/ typo_fixed(拼写修正,4项)/ answer_fixed(答案修正,14项)/ question_rewritten(问题重写,4项)
change_reason 每项修正的实物 PDF 证据(文件名、物理页码、图表编号)

变更汇总(共 22 项)

索引 领域/类型 变更类型 变更对象 变更概要
6 finance/image answer_fixed target_answer_new 化学工业景气判断BSI从“+9.5”修正为“+9.6”
8 finance/image answer_fixed target_answer_new 将同时增长销售额/经常利润的行业整理为“生产用机械器具制造业”和“零售业”两类
52 finance/image answer_fixed target_answer_new でんさい发生记录请求件数从“136件”修正为“136万件”
54 finance/table question_rewritten question_new / target_answer_new 将模糊的“存款余额”明确为“总存款储蓄余额”的问题
55 finance/image answer_fixed target_answer_new 重新组织个人/法人存款增减率说明,基于期间别利率
57 finance/image answer_fixed target_answer_new 根据期间别上位表修正存款储蓄余额增长率的上位都道府县
59 finance/paragraph answer_fixed target_answer_new 将变化率最低的地区从“福井县+1%”修正为“三重县+23%”
71 it/table typo_fixed question_new / target_answer_new “5G人工カバー率”修正为“5G人口カバー率”
88 it/paragraph typo_fixed target_answer_new 信息安全语境下“気密度”修正为“機密度”
89 it/image answer_fixed target_answer_new 补全中小学的最高2要素以及最低2要素的回答
115 it/table question_rewritten question_new / target_answer_new / target_page_no_new 将基于2023版法律概要的问题重新设计为基于2025版、可回答的“分野D”新设项目
116 it/table question_rewritten question_new / target_answer_new / target_page_no_new 将涉及2025版中无法确认的5G术语的问题,重新设计为询问5G要件重新评估内容
117 it/table question_rewritten question_new / target_answer_new / target_page_no_new 将基于2023版AI新设项目的问题,重新设计为基于2026研修文本目录的AI相关项目
118 it/paragraph answer_fixed target_answer_new / target_page_no_new 资格扩大示例中的“LPWA”替换为采用PDF中记载的“Wi-Fi7”
119 it/image answer_fixed target_answer_new / target_page_no_new 资格失效后重新获取说明,根据复活/再申请流程和认定审查期间进行订正
174 manufacturing/table answer_fixed target_answer_new “水杨酸”单体修正为“水杨酸盐类”的最大配合量1.0g
180 public/image answer_fixed target_answer_new 将回答从“保健中心和医院”修正为“保健所和保健中心”的区别
194 public/paragraph typo_fixed target_answer_new 故乡纳税语境下“返送品”修正为“返礼品”
200 public/table answer_fixed target_answer_new 增加数量从“10,584世帯”修正为“10,584千世帯”
234 public/paragraph answer_fixed target_answer_new 居住区域从“台場2区域”修正为“台場1区域”
281 retail/paragraph typo_fixed target_answer_new 商业限制区域“300世代”修正为“300世帯”
294 retail/paragraph answer_fixed target_answer_new 将受理文件的内容回答修正为获取方法(国税厅HP)

使用方法

bash

获取并验证文档(确保字节一致)

python3 download_documents.py cd documents && sha256sum -c ../documents_checksums.sha256 # 应输出 65/65 OK

评估流水线(步骤01~04)请参考 GitHub 上另一个仓库(正在准备公开)

  • 文档通过 Wayback Machine 固定链接 + SHA-256 验证字节一致性(PDF 不直接分发,仅提供 manifest 和获取脚本)。
  • *_new 列的差异修改是提议性质,直接使用原始列进行评估的结果不应与本数据集结果混同。欢迎对差异进行指正。

许可声明

  • 本数据集仓库中的 CSV、新增列、manifest、校验和、脚本等采用 MIT License 发布。
  • 源数据集在 Hugging Face 上标注 license: mit,但 MIT 许可证是否适用于所有组成部分(问题、答案、各公司回答、判定、documents.csv 元数据等)未明确说明。本仓库基于此标注发布派生数据。
  • 第三方 PDF 本身不重新分发,其版权和使用条件归属于各发布者。
  • 更多归属、许可范围、上游许可声明信息请参考仓库中的 NOTICE 文件。

引用

bibtex @misc{rag_eval_ja_repro, title = {RAG Eval JA Repro}, author = {SAKATA Consulting}, year = {2026}, note = {Derived from allganize/RAG-Evaluation-Dataset-JA; upstream Hugging Face metadata indicates license: mit}, howpublished = {Hugging Face Datasets} }

引用时请同时引用源数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
RAG Eval JA Repro 数据集是基于上游数据集 allganize/RAG-Evaluation-Dataset-JA 构建的衍生再現性评估数据集。构建方式遵循严格的可追溯性原则:首先,明确记录上游数据集的特定修订版本(commit c3a7567)及其CSV文件的SHA-256校验值,以确保即使在原数据集更新后仍能准确定位参考基准。在此基础上,通过人工与LLM相结合的校对方式,依据源PDF文件的实际内容,对300条评测样本中的22条进行了修正,并生成了新的 question_new、target_answer_new 和 target_page_no_new 列,同时为每条修改提供了详细的 change_type 分类(如 typo_fixed、answer_fixed、question_rewritten)和基于PDF具体位置的 change_reason 说明。此外,还为65份源文档构建了基于Wayback Machine归档URL和SHA-256校验值的文档清单(documents_manifest.csv),并提供了自动化下载脚本,使得任何人都能获取字节完全一致的原始PDF文件,从而确保评测环境的可复现性。
特点
该数据集的核心特点在于其卓越的再現性与透明性。它并未直接修改上游数据集的原始列,而是通过添加派生列的方式保留了所有原始信息,使得全量22处差异均可逐条审计。每个修改都附有明确的PDF页码、图表编号等具体证据,极大提升了修正的可信度。文档清单结合了Wayback Machine固定URL与SHA-256哈希值,确保源文档在时间推移后的可获取性与完整性验证。数据集还提供了详尽的变更索引表,将修改按领域(如金融、IT、公共)和类型进行归类,便于研究人员快速定位感兴趣的变化。遵循MIT开源许可,确保了法律使用的清晰性,同时明确声明不重新分发第三方PDF文件,避免了版权风险。
使用方法
使用该数据集进行RAG系统评估时,推荐采用其新增的 *_new 列作为评测基准。首先,通过运行 download_documents.py 脚本,借助Wayback Machine归档URL获取与原始评测环境完全一致的65份PDF文档,并使用提供的 SHA-256 校验文件验证文档完整性。随后,在构建RAG管线时,将这些标准化的PDF作为检索语料库,以 question_new 作为查询输入,并以 target_answer_new 作为正确答案进行指标计算。需要注意的是,由于本数据集的修正基于PDF实际内容,其评判标准与原数据集存在差异,因此评测结果不应直接与原排行榜进行比较。数据集还提供了 build_master_csv.py 脚本,允许用户自行复现CSV文件的生成过程,确保完全的可复现性。
背景与挑战
背景概述
RAG Eval JA Repro数据集由SAKATA Consulting于2026年创建,旨在解决检索增强生成(RAG)系统在日语环境下的评估可重复性问题。该数据集衍生自allganize/RAG-Evaluation-Dataset-JA,核心研究问题在于确保RAG评估结果在不同实验条件下的一致性与可信度。通过提供基于原始PDF验证的修正答案与问题列,以及通过Wayback Machine固定URL和SHA-256校验码确保语料库字节一致性的清单,该数据集显著提升了评估流程的透明度和可追溯性。其影响力体现在为日语RAG领域树立了可复现评估的基准,推动了评估标准从主观判断向客观可验证的转型。
当前挑战
该数据集主要应对两大挑战:首先,在领域问题层面,原始评估数据集存在因认知偏差或转录错误导致的答案不准确,例如财务数据数值偏差(如‘136件’实为‘136万件’)和术语混乱(如‘気密度’应为‘機密度’),直接影响了RAG系统性能评估的可靠性;其次,在构建过程中,面临确保语料库版本可复现的严峻挑战,由于原始PDF可能被更新或移除,需通过Wayback固定URL结合SHA-256校验实现字节级一致性验证,同时避免重新分发受版权保护的PDF文件,仅提供元数据和获取脚本,这要求对65篇文档的溯源信息进行精准记录与自动化验证。
常用场景
经典使用场景
检索增强生成(Retrieval-Augmented Generation, RAG)作为缓解大型语言模型事实性错误与知识滞后问题的核心技术范式,其评估体系的严谨性直接决定了系统可用性的天花板。RAG Eval JA Repro数据集专为日文RAG系统的可重复性评估而设计,提供了基于原始PDF源文档逐项核验的修正版问答对(包括问题重写、答案订正与笔误修复),并附有可溯源至Wayback固定URL与SHA-256哈希的完整文档清单。研究者可藉此在严格一致的输入条件下度量检索器与生成器的联合性能,从而规避因源文档版本漂移或标注噪声引发的评估偏差。
衍生相关工作
该数据集的构建方法论直接启发了后续关于评估基准注记误差传递效应的系统性研究,研究者通过对比原始标注与修正标注下的检索器与生成器性能波动,量化了评价噪声对系统排名拓扑结构的扭曲程度。其衍生出的PDF源文档指纹化与固定存档技术方案,已被日语机器学习社区数个可重复性倡议所采纳,形成了诸如“RAG小町”(RAG Komachi)等区域性复现性评估框架的基础设施组件。此外,基于其提出的“变动类型分类体系”(即按笔误、答案修正、问题重写等细粒度划分变更类别),后续工作发展出了可自动检测评估集退化特征的启发性探测算法,推动了评估基准维护从人工巡逻向自动化质量监控的范式转变。
数据集最近研究
最新研究方向
当前,检索增强生成(RAG)技术在自然语言处理领域蓬勃发展,但其评估数据集的可复现性危机日益凸显,成为制约研究可信度的关键瓶颈。在此背景下,rag-eval-ja-repro数据集应运而生,它专门聚焦于日语RAG评估的可复现性挑战。该数据集并非简单重构,而是创造性地通过构建基于Wayback固定URL与SHA-256哈希值的文档获取清单,确保评估所用源PDF的字节级精确复现,从源头解决了因文档版本漂移导致的评估结果不可比较的棘手问题。同时,数据集通过人工审核与LLM辅助,对原基准中的22项问题进行了细致的勘误与优化,涵盖答案订正、笔误修正及问题重写,显著提升了标注的准确性与严谨性。这一前沿工作不仅为日语RAG系统的公平比较与稳健发展奠定了坚实的数据基础,更深刻呼应了人工智能领域对可复现性这一核心原则的迫切呼唤,为构建更可靠的评估体系提供了极具价值的范式参考。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务