rag-eval-ja-repro
收藏数据集概述
数据集名称: RAG Eval JA Repro
数据集地址: https://huggingface.co/datasets/SakataConsul/rag-eval-ja-repro
许可证: MIT
语言: 日语
任务类别: 问答
标签: RAG、评估、日语、可复现性、检索增强生成
源数据集: allganize/RAG-Evaluation-Dataset-JA
数据集配置: default(test 分片,数据文件为 rag_evaluation_master.csv)
数据集定位
本数据集是源数据集 allganize/RAG-Evaluation-Dataset-JA 的派生可复现数据集,不修改源数据,而是补充了以下两种辅助资源,确保基于具体 PDF 文件的 RAG 评估可复现:
- 再現用評価基準CSV: 在源 CSV 基础上新增
target_answer_new、question_new、target_page_no_new等列,基于实物 PDF 进行修正并附有每项的修正理由。 - 文書マニフェスト: 包含 65 份 PDF 文件的 Wayback 固定 URL 及 SHA-256 校验和,以及获取脚本,确保可获取字节完全相同的源 PDF。
源数据集的修订版本、最后修改时间、CSV 文件名及 SHA-256 校验和均被明确记录,即使将来源数据集更新,本数据集的来源也可追溯。
数据集内容
文件结构:
rag_evaluation_master.csv:主 CSV 文件(12 列),即再現用評価基準CSV。build_master_csv.py:用于生成该 CSV 的脚本(确定性、可重复生成字节一致的文件)。documents_manifest.csv:65 份 PDF 的元数据(域名/标题/出版商/文件/页数/SHA-256/源URL/存档固定 URL)。documents_checksums.sha256:65 份 PDF 的 SHA-256 校验和文件。download_documents.py:优先从存档固定 URL 获取 PDF 的脚本。download_sources.csv:获取来源列表。REPRODUCTION.md:再现性检查清单。NOTICE:归属与许可证声明。- PDF 二进制文件不包含在内(避免再分发)。
CSV 新增列(共 5 列,保留原始列):
| 列名 | 说明 |
|---|---|
question_new / target_answer_new / target_page_no_new |
基于实物 PDF 的修正后问题、答案、参考页(未修正时与原始列相同) |
change_type |
变更类型:unchanged(未修改,278项)/ typo_fixed(拼写修正,4项)/ answer_fixed(答案修正,14项)/ question_rewritten(问题重写,4项) |
change_reason |
每项修正的实物 PDF 证据(文件名、物理页码、图表编号) |
变更汇总(共 22 项):
| 索引 | 领域/类型 | 变更类型 | 变更对象 | 变更概要 |
|---|---|---|---|---|
| 6 | finance/image | answer_fixed | target_answer_new | 化学工业景气判断BSI从“+9.5”修正为“+9.6” |
| 8 | finance/image | answer_fixed | target_answer_new | 将同时增长销售额/经常利润的行业整理为“生产用机械器具制造业”和“零售业”两类 |
| 52 | finance/image | answer_fixed | target_answer_new | でんさい发生记录请求件数从“136件”修正为“136万件” |
| 54 | finance/table | question_rewritten | question_new / target_answer_new | 将模糊的“存款余额”明确为“总存款储蓄余额”的问题 |
| 55 | finance/image | answer_fixed | target_answer_new | 重新组织个人/法人存款增减率说明,基于期间别利率 |
| 57 | finance/image | answer_fixed | target_answer_new | 根据期间别上位表修正存款储蓄余额增长率的上位都道府县 |
| 59 | finance/paragraph | answer_fixed | target_answer_new | 将变化率最低的地区从“福井县+1%”修正为“三重县+23%” |
| 71 | it/table | typo_fixed | question_new / target_answer_new | “5G人工カバー率”修正为“5G人口カバー率” |
| 88 | it/paragraph | typo_fixed | target_answer_new | 信息安全语境下“気密度”修正为“機密度” |
| 89 | it/image | answer_fixed | target_answer_new | 补全中小学的最高2要素以及最低2要素的回答 |
| 115 | it/table | question_rewritten | question_new / target_answer_new / target_page_no_new | 将基于2023版法律概要的问题重新设计为基于2025版、可回答的“分野D”新设项目 |
| 116 | it/table | question_rewritten | question_new / target_answer_new / target_page_no_new | 将涉及2025版中无法确认的5G术语的问题,重新设计为询问5G要件重新评估内容 |
| 117 | it/table | question_rewritten | question_new / target_answer_new / target_page_no_new | 将基于2023版AI新设项目的问题,重新设计为基于2026研修文本目录的AI相关项目 |
| 118 | it/paragraph | answer_fixed | target_answer_new / target_page_no_new | 资格扩大示例中的“LPWA”替换为采用PDF中记载的“Wi-Fi7” |
| 119 | it/image | answer_fixed | target_answer_new / target_page_no_new | 资格失效后重新获取说明,根据复活/再申请流程和认定审查期间进行订正 |
| 174 | manufacturing/table | answer_fixed | target_answer_new | “水杨酸”单体修正为“水杨酸盐类”的最大配合量1.0g |
| 180 | public/image | answer_fixed | target_answer_new | 将回答从“保健中心和医院”修正为“保健所和保健中心”的区别 |
| 194 | public/paragraph | typo_fixed | target_answer_new | 故乡纳税语境下“返送品”修正为“返礼品” |
| 200 | public/table | answer_fixed | target_answer_new | 增加数量从“10,584世帯”修正为“10,584千世帯” |
| 234 | public/paragraph | answer_fixed | target_answer_new | 居住区域从“台場2区域”修正为“台場1区域” |
| 281 | retail/paragraph | typo_fixed | target_answer_new | 商业限制区域“300世代”修正为“300世帯” |
| 294 | retail/paragraph | answer_fixed | target_answer_new | 将受理文件的内容回答修正为获取方法(国税厅HP) |
使用方法
bash
获取并验证文档(确保字节一致)
python3 download_documents.py cd documents && sha256sum -c ../documents_checksums.sha256 # 应输出 65/65 OK
评估流水线(步骤01~04)请参考 GitHub 上另一个仓库(正在准备公开)
- 文档通过 Wayback Machine 固定链接 + SHA-256 验证字节一致性(PDF 不直接分发,仅提供 manifest 和获取脚本)。
*_new列的差异修改是提议性质,直接使用原始列进行评估的结果不应与本数据集结果混同。欢迎对差异进行指正。
许可声明
- 本数据集仓库中的 CSV、新增列、manifest、校验和、脚本等采用 MIT License 发布。
- 源数据集在 Hugging Face 上标注
license: mit,但 MIT 许可证是否适用于所有组成部分(问题、答案、各公司回答、判定、documents.csv元数据等)未明确说明。本仓库基于此标注发布派生数据。 - 第三方 PDF 本身不重新分发,其版权和使用条件归属于各发布者。
- 更多归属、许可范围、上游许可声明信息请参考仓库中的
NOTICE文件。
引用
bibtex @misc{rag_eval_ja_repro, title = {RAG Eval JA Repro}, author = {SAKATA Consulting}, year = {2026}, note = {Derived from allganize/RAG-Evaluation-Dataset-JA; upstream Hugging Face metadata indicates license: mit}, howpublished = {Hugging Face Datasets} }
引用时请同时引用源数据集。




