SustainableQA
收藏github2025-07-01 更新2025-07-02 收录
下载链接:
https://github.com/DataScienceUIBK/SustainableQA
下载链接
链接失效反馈官方服务:
资源简介:
SustainableQA是一个大规模问答数据集,专为企业可持续性报告和欧盟分类法合规性设计。数据集提供了从企业可持续性报告和年度报告中提取的综合问答对,支持可持续性合规性和ESG分析的AI系统开发。数据集包含195,287个问答对,涵盖欧盟分类法、ESG和可持续性三个领域,源自61份德国和奥地利公司的公开报告。
SustainableQA is a large-scale question answering (QA) dataset tailored for corporate sustainability reporting and EU Taxonomy compliance. It provides comprehensive question-answer pairs extracted from corporate sustainability reports and annual reports, supporting the development of AI systems for sustainability compliance and ESG analysis. The dataset contains 195,287 QA pairs covering three domains: EU Taxonomy, ESG and sustainability, and is sourced from 61 public reports of German and Austrian companies.
创建时间:
2025-06-18
原始信息汇总
SustainableQA 数据集概述
数据集简介
SustainableQA 是一个大规模问答数据集,专注于企业可持续性报告和欧盟分类法合规性。该数据集包含从企业可持续性报告和年度报告中提取的全面问答对,旨在支持可持续性合规和ESG分析的AI系统开发。
数据来源
- 来源报告:61份公开的德国和奥地利企业报告(2020-2024年)
- 报告类型:年度报告、可持续性报告、欧盟分类法披露文件
- 获取方式:从企业官方网站下载
关键特征
- 总问答对数量:195,287
- 事实型问题:88,792
- 非事实型问题:102,539
- 基于表格的问答:3,956
- 覆盖领域:
- 欧盟分类法
- ESG(环境、社会和治理)
- 可持续性
- 多跨度复杂性:16.7%的问题需要多个文本跨度回答
- 地域聚焦:德国和奥地利(DACH地区)企业
数据集统计
主要组件
| 组件 | 数量 | 详情 |
|---|---|---|
| 总问答对 | 195,287 | 事实型+非事实型+表格 |
| 事实型问题 | 88,792 | 简短精确答案 |
| 非事实型问题 | 102,539 | 描述性解释答案 |
| 基于表格的问答 | 3,956 | 来自218个复杂表格 |
| 文本段落 | 8,067 | 语义连贯的段落 |
| 来源报告 | 61 | 德国和奥地利企业 |
类别分布
| 类别 | 段落数 | 事实型问答 | 非事实型问答 | 总问答数 |
|---|---|---|---|---|
| ESG | 4,320 | 48,260 | 55,139 | 103,399 |
| 欧盟分类法 | 747 | 8,260 | 8,906 | 17,166 |
| 可持续性 | 3,000 | 32,272 | 38,494 | 70,746 |
答案复杂度分析
| 类别 | 平均跨度 | 单跨度 | 多跨度 | 复杂度说明 |
|---|---|---|---|---|
| 总体 | 1.36 | 83.3% | 16.7% | 欧盟分类法最复杂 |
| ESG | 1.37 | 83.1% | 16.9% | 中等复杂度 |
| 欧盟分类法 | 1.45 | 78.8% | 21.2% | 最高复杂度 |
| 可持续性 | 1.32 | 84.6% | 15.4% | 最低复杂度 |
示例问题
事实型问题
Q: 上下文中提到了哪些SDGs? A: SDG 13: 气候行动, SDG 16: 和平与正义...
Q: 公司用于符合分类法活动的总资本支出是多少? A: 1520万欧元
Q: 活动3.10贡献了哪些环境目标? A: 气候变化减缓
非事实型问题
Q: 为什么活动3.10未能满足氢制造的重大贡献标准? A: 因为量化的生命周期温室气体减排量未经验证,这是满足对气候变化减缓重大贡献标准的必要条件。
Q: 公司如何评估"无重大损害"标准? A: 公司对所有六个环境目标进行全面评估,确保在为一个目标做出贡献的同时,通过详细的影响评估和第三方验证,活动不会对其他五个目标造成重大损害。
法律与伦理合规
- 用途:因斯布鲁克大学学术研究
- 数据性质:使用公开可用的企业报告
- 许可:CC BY-NC 4.0(非商业用途)
许可信息
- 许可证:知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0)
- 使用限制:允许非商业用途,需署名
联系方式
- 主要联系人:mohammed.ali@uibk.ac.at
- 合著者:abdelrahman.abdallah@uibk.ac.at, adam.jatowt@uibk.ac.at
- 机构:因斯布鲁克大学计算机科学系
搜集汇总
数据集介绍

构建方式
SustainableQA数据集的构建基于61份德国和奥地利企业公开报告(2020-2024年),涵盖年度报告、可持续发展报告及欧盟分类法披露文件。研究团队采用系统化流程从报告中提取语义连贯的文本段落,通过专业标注生成三类问答对:事实型问题(88,792条)、非事实型问题(102,539条)及表格类问题(3,956条)。数据采集严格遵循企业公开披露原则,所有源材料均来自公司官网发布的合规文件。
特点
该数据集包含195,287组问答对,具有显著的领域专业性和地域特色,聚焦欧盟分类法、ESG及可持续发展三大领域。其核心价值体现在16.7%的多跨度复杂问题设计,特别是欧盟分类法类问题的多跨度比例达21.2%,为模型处理复杂语义关系提供了挑战性测试场景。数据覆盖德语区企业实践,包含218个复杂表格的结构化问答,为跨模态研究提供了独特资源。
使用方法
研究者可通过GitHub获取数据集,按照CC BY-NC 4.0许可协议进行非商业用途的学术研究。数据集已预分割为事实型与非事实型问题,支持基于BERT等架构的问答系统训练。针对多跨度问题,建议采用序列标注或阅读理解框架进行处理。表格类数据需结合表格解析技术,适合研究结构化信息抽取任务。使用前应详细阅读样本问题以理解不同领域问题的回答范式。
背景与挑战
背景概述
SustainableQA是由因斯布鲁克大学计算机科学系的研究团队于2024年推出的企业可持续性问答数据集,专注于欧盟分类法报告和ESG分析领域。该数据集源自61份德奥企业公开报告(2020-2024),包含19.5万组问答对,涵盖事实型、非事实型及表格型三类问题,涉及ESG、欧盟分类法和可持续性三大领域。作为首个聚焦DACH地区企业可持续性披露的问答数据集,其多跨度答案设计(16.7%问题需多文本片段回答)为AI系统理解复杂监管要求提供了新基准,推动了可持续金融领域的知识提取技术发展。
当前挑战
构建SustainableQA面临双重挑战:领域层面需解决企业可持续性信息披露的非结构化特性,特别是欧盟分类法报告中专业术语密集、跨文本关联性强的特点;技术层面涉及从异构企业报告中提取语义连贯的文本片段,并确保88,792组事实型问题答案的精确对齐,其中21.2%的欧盟分类法问题需处理多文本跨度关联。此外,3,956组表格问答要求保持原始数据关系,218个复杂表格的结构化转换成为关键难点。
常用场景
经典使用场景
在可持续发展金融领域,SustainableQA数据集为研究者和开发者提供了一个标准化的评估平台,用于测试和优化问答系统在复杂企业报告中的性能。该数据集通过涵盖欧盟分类法、ESG和可持续发展三大领域的多样化问题类型,包括事实型、非事实型和表格型问答,为自然语言处理模型提供了丰富的训练和验证场景。特别是在处理多跨度答案的复杂问题时,该数据集能够有效检验模型的理解和推理能力。
衍生相关工作
基于SustainableQA的独特特性,已有研究探索了混合架构问答系统在可持续金融领域的应用。部分工作专注于改进预训练模型对德语财务术语的捕捉能力,另一些研究则利用其多跨度问题开发新型注意力机制。数据集中的表格问答部分也催生了针对金融报表的结构化数据理解方法,这些衍生研究正逐步形成可持续计算的新兴交叉领域。
数据集最近研究
最新研究方向
随着全球对可持续发展和企业社会责任的关注度不断提升,SustainableQA数据集在环境、社会和治理(ESG)分析领域的研究方向呈现出显著的前沿性。该数据集聚焦于欧盟分类法报告和企业可持续发展报告,为自然语言处理技术在金融合规领域的应用提供了重要支持。当前研究热点主要集中在多跨度问答系统的开发,尤其是针对复杂表格数据的解析能力提升。由于21.2%的欧盟分类法问题涉及多文本片段回答,该数据集正推动着跨文档信息抽取技术的创新。与此同时,结合大语言模型的企业可持续发展指标自动生成系统,也成为学术界与工业界共同探索的方向。这一研究不仅有助于降低企业的合规成本,更为全球可持续金融体系的标准化建设提供了技术支撑。
以上内容由遇见数据集搜集并总结生成



