ESGBench
收藏ESGBench 数据集概述
数据集简介
ESGBench 是一个可解释的 ESG 问答基准数据集,通过自动化流程从 ESG/TCFD PDF 文档生成具有证据支持的问答对。
核心功能
- 收集 ESG/TCFD PDF 文档
- 构建可搜索索引和表格缓存
- 自动生成基于证据的 ESG 问答对
- 运行 RAG 基线(可选)
- 评估预测结果(EM/F1/数值准确率/Recall@K)
数据生成流程
1. 种子文档准备
编辑 data/docs_seed.csv 文件(UTF-8编码,需要表头):
company,year,url,doc_type,country,industry,source Apple Inc,2024,https://…/apple-2024-esg.pdf,ESG,US,Technology,manual
2. 文档处理
运行 python -m scripts.ingest_catalog data/docs_seed.csv:
- 下载 PDF 到 pdfs/ 目录
- 记录到 data/esgbench_document_information.jsonl
3. 索引构建
运行 python -m scripts.build_index:
- 生成 cache/chunks.json(文本块)
- 生成 cache/<DOC>_tables.json(解析的表格数据)
4. 问答对生成
运行 python -m scripts.generate_qas_from_chunks:
- 输出到 data/esgbench_open_source.jsonl
- 支持去重和防护机制
数据格式
问答对示例
json { "company": "Apple Inc", "doc_name": "APPLE_INC_2024_ESG", "category": "Environmental", "kpi_name": "Scope 2 (market-based)", "question": "What are Apple Incs Scope 2 (market-based) emissions in 2024?", "answer": "1,234,567 tCO2e", "evidence": [{ "evidence_text": "… Scope 2 (market-based) were 1,234,567 tCO2e in 2024 …", "evidence_page_num": 39, "evidence_doc_name": "APPLE_INC_2024_ESG" }] }
评估指标
- 精确匹配(Exact Match)
- 字符串 F1 分数
- 数值准确率(±2% 容差,支持单位识别)
- 检索召回率@K
- 分类别准确率
技术环境
- Python 3.10–3.12
- 需要 OpenAI API 密钥
- 支持 macOS(需要安装 Ghostscript 和 Java)
目录结构
esgbench/ data/ # 种子数据和生成的标注/预测 pdfs/ # 下载的 PDF 文档 cache/ # 块、表格、嵌入向量 scripts/ # CLI 入口点 src/esgbench/ # 可导入的库代码
环境变量
- OPENAI_API_KEY(必需)
- LLM_MODEL(默认 gpt-5-mini)
- EMB_MODEL(默认 text-embedding-3-large)
- RETRIEVE_K(默认 5)
- PASSAGE_CHARS(默认 900)




