SustainableQA
收藏arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://github.com/IDataScienceU1BK/SustainableQA
下载链接
链接失效反馈官方服务:
资源简介:
SustainableQA数据集是一个包含超过19.5万个问答对的全面数据集,旨在帮助开发能够处理企业可持续发展报告和欧盟分类报告的先进知识助手。该数据集涵盖了环境、社会和治理(ESG)绩效的详细、数据丰富的披露,为投资者、监管者和利益相关者提供了非财务数据的主要来源。数据集的创建过程包括语义块分类、混合跨度提取流程、专门设计的表到段转换策略,以及利用大型语言模型进行精炼和验证。该数据集的生成采用了多阶段流程,包括数据采集、文档预处理、内容分类和问答生成。数据采集阶段通过网页抓取股票交易所网站,收集了61份来自德国和奥地利公司的年度报告和独立可持续发展报告。文档预处理阶段将原始PDF报告转换为结构化、清洁和管理格式。问答数据集生成阶段包括内容分类、高级跨度提取和多类型问答生成。最后,数据集的组成和分析表明,数据集内容丰富,涵盖了ESG、欧盟分类和可持续发展三个关键类别,并为开发高级知识助手提供了有效资源。
The SustainableQA dataset is a comprehensive corpus containing over 195,000 question-answer pairs, designed to facilitate the development of advanced knowledge assistants capable of processing corporate sustainability reports and EU taxonomy reports. This dataset covers detailed, data-rich disclosures on environmental, social, and governance (ESG) performance, serving as a primary source of non-financial data for investors, regulators, and stakeholders. The dataset creation process encompasses semantic chunk classification, mixed span extraction workflows, specially designed table-to-paragraph conversion strategies, and refinement and validation using large language models (LLMs). The dataset generation adopts a multi-stage workflow comprising data collection, document preprocessing, content classification, and question-answer generation. In the data collection phase, 61 annual reports and standalone sustainability reports from companies in Germany and Austria were gathered via web scraping of stock exchange websites. The document preprocessing phase converts raw PDF reports into structured, clean, and manageable formats. The question-answer dataset generation phase includes content classification, advanced span extraction, and multi-type question-answer generation. Finally, dataset composition and analysis demonstrate that the dataset is content-rich, covering three core categories: ESG, EU taxonomy, and sustainability, and serves as an effective resource for developing advanced knowledge assistants.
提供机构:
因斯布鲁克大学
创建时间:
2025-08-05
搜集汇总
数据集介绍

构建方式
SustainableQA数据集的构建采用了多阶段流程,首先通过爬取德国和奥地利上市公司的可持续发展报告和年度报告获取原始数据,随后利用Marker库将PDF转换为结构化Markdown文本。在预处理阶段,通过语义段落分类(使用Llama 3.3模型)筛选出与ESG、欧盟分类法和可持续发展相关的内容,并采用混合跨度提取方法,结合了微调的命名实体识别模型、基于规则的提取和GPT-4o驱动的细化处理,确保答案跨度的精确性。此外,针对报告中复杂的多页表格,数据集还通过Gemini 2.5模型将其转换为可读段落,最终生成了包含19.5万对问答对的丰富数据集。
特点
SustainableQA数据集以其多样性和专业性著称,涵盖了19.5万对问答对,其中包括8.8万对事实型问题和10.2万对非事实型问题。数据集内容分为ESG、欧盟分类法和可持续发展三大类别,答案长度从简洁的事实型回答(平均4.2词)到详细的非事实型回答(平均32.5词)不等。特别值得注意的是,欧盟分类法相关的问题展现了更高的复杂性,21.2%的问题需要多跨度答案,而83.3%的事实型问题可通过单一跨度回答,为模型提供了从简单实体提取到复杂信息聚合的多层次挑战。
使用方法
该数据集适用于训练和评估问答系统在可持续发展报告领域的性能。研究人员可采用零样本、上下文增强零样本或少样本等提示策略,利用数据集对模型进行微调或基准测试。对于事实型问题,建议采用精确匹配和F1分数作为评估指标;非事实型和表格型问题则可使用BLEU、ROUGE-L和METEOR等文本相似度指标。数据集中的多跨度答案问题特别适合用于测试模型的信息整合能力,而表格转换后的段落则为研究结构化数据理解提供了独特资源。
背景与挑战
背景概述
SustainableQA是由因斯布鲁克大学Mohammed Ali、Abdelrahman Abdallah和Adam Jatowt团队于2025年推出的企业可持续性与欧盟分类报告问答数据集。该数据集旨在解决企业可持续发展透明度需求激增背景下,从非结构化报告中精准提取信息的核心问题。随着欧盟《企业可持续发展报告指令》(CSRD)和《分类法》等法规的实施,企业需披露大量环境、社会和治理(ESG)数据,但传统人工提取方式效率低下。SustainableQA包含19.5万组事实型与非事实型问答对,通过融合语义块分类、混合跨度提取和表格转换技术,为开发符合可持续发展合规要求的智能知识助手提供了基准资源。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决企业可持续发展报告中信息高度碎片化、欧盟分类数据分散于多页表格等复杂结构中的难题,要求模型具备跨章节语义关联能力;在构建技术层面,需克服PDF文档非结构化特性,开发混合式跨度提取管道,整合微调命名实体识别模型、规则方法和LLM增强优化,同时设计专门的表格转段落策略以处理多页复杂表格数据。评估表明,模型对需要多跨度答案的复杂问题表现显著下降,凸显了可持续发展领域信息聚合的技术瓶颈。
常用场景
经典使用场景
SustainableQA数据集在企业可持续发展和欧盟分类报告领域具有广泛的应用价值。该数据集通过整合语义块分类、混合跨度提取流程以及专门的表格到段落转换技术,生成了超过195,000个多样化的问答对。这些问答对涵盖了事实性和非事实性问题,为研究人员和开发者提供了丰富的训练和评估资源。数据集特别适用于开发能够处理复杂可持续性合规问题的知识助手,并在金融自然语言处理(FinNLP)领域展现了显著的应用潜力。
衍生相关工作
SustainableQA数据集衍生了一系列经典研究工作,包括基于大型语言模型的可持续性报告分析工具(如CHATREPORT)和专门针对ESG领域的命名实体识别(NER)模型。此外,该数据集还启发了多项关于多跨度答案提取和复杂表格数据处理的研究,进一步推动了金融自然语言处理和可持续性分析领域的技术创新。这些衍生工作不仅扩展了数据集的应用范围,也为后续研究提供了重要的参考和基准。
数据集最近研究
最新研究方向
随着全球对可持续发展透明度的需求激增,特别是在欧盟分类法等新法规的推动下,企业可持续发展报告的信息提取成为研究热点。SustainableQA数据集应运而生,专注于为企业可持续发展和欧盟分类法报告提供高质量、领域特定的问答数据。该数据集通过整合语义段落分类、混合跨度提取流程和专门的表格到段落转换技术,生成了超过195,000个多样化的问答对,涵盖了事实性和非事实性问题。前沿研究方向包括利用大型语言模型(LLMs)和检索增强生成(RAG)系统提升信息提取的精确度,以及探索多语言和多模态数据在可持续发展报告中的应用。该数据集不仅为开发先进的知识助手提供了有效资源,还为复杂可持续性合规问题的解决设定了新的基准。
相关研究论文
- 1SustainableQA: A Comprehensive Question Answering Dataset for Corporate Sustainability and EU Taxonomy Reporting因斯布鲁克大学 · 2025年
以上内容由遇见数据集搜集并总结生成



