climatebert/climate_detection
收藏Hugging Face2023-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/climatebert/climate_detection
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- expert-generated
language_creators:
- found
language:
- en
license: cc-by-nc-sa-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- text-classification
task_ids: []
pretty_name: ClimateTalkDetection
dataset_info:
features:
- name: text
dtype: string
- name: label
dtype:
class_label:
names:
'0': 'no'
'1': 'yes'
splits:
- name: train
num_bytes: 638487
num_examples: 1300
- name: test
num_bytes: 222330
num_examples: 400
download_size: 492038
dataset_size: 860817
---
# Dataset Card for climate_detection
## Dataset Description
- **Homepage:** [climatebert.ai](https://climatebert.ai)
- **Repository:**
- **Paper:** [papers.ssrn.com/sol3/papers.cfm?abstract_id=3998435](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3998435)
- **Leaderboard:**
- **Point of Contact:** [Nicolas Webersinke](mailto:nicolas.webersinke@fau.de)
### Dataset Summary
We introduce an expert-annotated dataset for detecting climate-related paragraphs in corporate disclosures.
### Supported Tasks and Leaderboards
The dataset supports a binary classification task of whether a given paragraph is climate-related or not.
### Languages
The text in the dataset is in English.
## Dataset Structure
### Data Instances
```
{
'text': '− Scope 3: Optional scope that includes indirect emissions associated with the goods and services supply chain produced outside the organization. Included are emissions from the transport of products from our logistics centres to stores (downstream) performed by external logistics operators (air, land and sea transport) as well as the emissions associated with electricity consumption in franchise stores.',
'label': 1
}
```
### Data Fields
- text: a paragraph extracted from corporate annual reports and sustainability reports
- label: the label (0 -> not climate-related, 1 -> climate-related)
### Data Splits
The dataset is split into:
- train: 1,300
- test: 400
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
Our dataset contains climate-related paragraphs extracted from financial disclosures by firms. We collect text from corporate annual reports and sustainability reports.
For more information regarding our sample selection, please refer to the Appendix of our paper (see [citation](#citation-information)).
#### Who are the source language producers?
Mainly large listed companies.
### Annotations
#### Annotation process
For more information on our annotation process and annotation guidelines, please refer to the Appendix of our paper (see [citation](#citation-information)).
#### Who are the annotators?
The authors and students at Universität Zürich and Friedrich-Alexander-Universität Erlangen-Nürnberg with majors in finance and sustainable finance.
### Personal and Sensitive Information
Since our text sources contain public information, no personal and sensitive information should be included.
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
- Julia Anna Bingler
- Mathias Kraus
- Markus Leippold
- Nicolas Webersinke
### Licensing Information
This dataset is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International license (cc-by-nc-sa-4.0). To view a copy of this license, visit [creativecommons.org/licenses/by-nc-sa/4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).
If you are interested in commercial use of the dataset, please contact [markus.leippold@bf.uzh.ch](mailto:markus.leippold@bf.uzh.ch).
### Citation Information
```bibtex
@techreport{bingler2023cheaptalk,
title={How Cheap Talk in Climate Disclosures Relates to Climate Initiatives, Corporate Emissions, and Reputation Risk},
author={Bingler, Julia and Kraus, Mathias and Leippold, Markus and Webersinke, Nicolas},
type={Working paper},
institution={Available at SSRN 3998435},
year={2023}
}
```
### Contributions
Thanks to [@webersni](https://github.com/webersni) for adding this dataset.
数据集基础元数据:
- 注释生成方式:专家生成
- 语言生成方式:公开采集
- 数据集语言:英语
- 许可协议:知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(cc-by-nc-sa-4.0)
- 多语言属性:单语言
- 样本规模:1000 < 样本数 < 10000
- 源数据集类型:原创数据集
- 任务类别:文本分类
- 任务子项:无
- 友好名称:ClimateTalkDetection
- 数据集信息:
- 特征字段:
1. `text`:字符串类型,存储段落文本
2. `label`:类别标签类型,类别映射为:0代表「不相关」,1代表「相关」
- 数据划分:
1. 训练集:字节数638487,样本数1300
2. 测试集:字节数222330,样本数400
- 下载大小:492038字节
- 总数据集大小:860817字节
# 气候检测数据集卡片
## 数据集描述
- **官方主页**:[climatebert.ai](https://climatebert.ai)
- **代码仓库**:无
- **相关学术论文**:[papers.ssrn.com/sol3/papers.cfm?abstract_id=3998435](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3998435)
- **排行榜**:无
- **联系人**:[Nicolas Webersinke](mailto:nicolas.webersinke@fau.de)
### 数据集简介
本数据集为专家标注数据集,旨在实现企业披露文件中气候相关段落的检测任务。
### 支持任务与排行榜
本数据集支持二分类任务:判断给定段落是否与气候议题相关。
### 语言说明
数据集内所有文本均采用英语撰写。
## 数据集结构
### 数据样例
{
'text': '− 范围3:可选范围,涵盖组织外部生产的商品与服务供应链相关的间接排放。其中包括外部物流运营商(航空、公路及海运)将产品从我们的物流中心运输至门店(下游环节)产生的排放,以及特许经营门店电力消耗相关的排放。',
'label': 1
}
### 数据字段说明
- `text`:从企业年度报告及可持续发展报告中提取的段落文本
- `label`:标注标签,0代表「非气候相关」,1代表「气候相关」
### 数据划分
本数据集划分为训练集与测试集两个子集:
- 训练集:共1300条样本
- 测试集:共400条样本
## 数据集构建流程
### 构建依据
需补充更多信息
### 源数据
#### 初始数据收集与标准化处理
本数据集包含从企业公开财务披露中提取的气候相关段落。我们的文本数据来源于企业年度报告及可持续发展报告。
如需了解样本筛选的详细规则,请参阅本团队发表论文的附录部分(参见[引用信息](#citation-information))。
#### 源文本生产者
主要为全球大型上市公司。
### 标注流程
#### 标注执行过程
如需了解具体的标注流程与标注指南,请参阅本团队发表论文的附录部分(参见[引用信息](#citation-information))。
#### 标注人员
标注工作由苏黎世大学与埃尔朗根-纽伦堡弗里德里希-亚历山大大学的金融学及可持续金融学专业学生与论文作者共同完成。
### 个人与敏感信息说明
由于本数据集的所有文本均来源于公开信息,因此不包含任何个人或敏感数据。
## 数据集使用注意事项
### 社会影响分析
需补充更多信息
### 偏差问题讨论
需补充更多信息
### 其他已知局限性
需补充更多信息
## 附加信息
### 数据集维护团队
- Julia Anna Bingler
- Mathias Kraus
- Markus Leippold
- Nicolas Webersinke
### 许可协议说明
本数据集采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(cc-by-nc-sa-4.0)进行授权。如需查看该许可协议的完整文本,请访问[creativecommons.org/licenses/by-nc-sa/4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/)。
若您有商业使用本数据集的需求,请联系[markus.leippold@bf.uzh.ch](mailto:markus.leippold@bf.uzh.ch)。
### 引用信息
bibtex
@techreport{bingler2023cheaptalk,
title={企业气候披露中的廉价谈话与气候举措、企业排放及声誉风险的关联研究},
author={Bingler, Julia and Kraus, Mathias and Leippold, Markus and Webersinke, Nicolas},
type={工作论文},
institution={可在SSRN 3998435获取},
year={2023}
}
### 贡献致谢
感谢[@webersni](https://github.com/webersni)为本数据集添加了相关内容。
提供机构:
climatebert
原始信息汇总
数据集概述
数据集基本信息
- 名称: ClimateTalkDetection
- 语言: 英语
- 许可证: cc-by-nc-sa-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 数据源: 原始数据
- 任务类别: 文本分类
数据集结构
- 特征:
- text: 字符串类型,从企业年报和可持续发展报告中提取的段落。
- label: 类别标签,其中 0 表示非气候相关,1 表示气候相关。
- 数据分割:
- 训练集: 1300个样本
- 测试集: 400个样本
数据集创建
- 源数据:
- 初始数据收集和规范化: 数据包含从企业财务披露中提取的与气候相关的段落,主要来源于大型上市公司的年报和可持续发展报告。
- 标注:
- 标注过程: 由苏黎世大学和埃尔兰根-纽伦堡大学的金融和可持续金融专业的作者和学生进行标注。
- 标注者: 主要为该领域的专家和学生。
使用考虑
- 许可证信息: 数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International license (cc-by-nc-sa-4.0)授权。
- 商业使用: 如需商业使用,请联系markus.leippold@bf.uzh.ch。
搜集汇总
数据集介绍

构建方式
在环境金融学领域,精准识别企业披露信息中的气候相关内容对评估气候风险至关重要。ClimateTalkDetection数据集的构建始于从上市公司年度报告和可持续发展报告中提取文本段落,这些公开披露文件构成了原始语料库。随后,由苏黎世大学和埃尔兰根-纽伦堡大学金融及可持续金融专业的研究人员与学生组成的专家团队,依据明确的标注准则,对每个段落进行人工标注,判断其是否与气候议题相关,从而形成包含二元分类标签的高质量数据集。
特点
该数据集专注于企业气候信息披露的文本分类,其核心特征在于专家驱动的标注过程确保了标签的权威性与可靠性。数据集规模适中,包含1700个标注样本,其中训练集1300例,测试集400例,均为英文文本。每个数据实例由文本段落及其对应的二元标签构成,标签清晰区分气候相关与非相关内容,为模型训练提供了结构分明、质量统一的基准数据。
使用方法
该数据集主要用于训练和评估二元文本分类模型,以自动化检测企业报告中的气候相关论述。研究人员可将训练集用于模型训练,测试集用于性能验证。鉴于其专业标注特性,该数据集尤其适用于环境、社会和治理(ESG)分析、气候金融风险评估等研究场景。使用者需遵循CC-BY-NC-SA 4.0许可协议,并将模型预测结果与专家标注进行对比,以衡量模型在特定领域文本理解上的效能。
背景与挑战
背景概述
随着全球气候变化议题日益受到关注,企业环境信息披露的透明度与准确性成为金融与环境科学交叉领域的研究焦点。ClimateBERT/climate_detection数据集由Julia Anna Bingler、Mathias Kraus、Markus Leippold和Nicolas Webersinke等研究人员于2023年创建,依托于苏黎世大学和埃尔兰根-纽伦堡大学的学术资源。该数据集旨在通过专家标注的文本段落,识别企业年报与可持续发展报告中的气候相关内容,其核心研究问题聚焦于自动化检测企业气候信息披露的可靠性,为可持续金融与气候风险管理提供关键数据支持,推动了自然语言处理技术在环境、社会与治理(ESG)分析中的应用。
当前挑战
该数据集致力于解决企业气候信息披露文本的自动分类挑战,其核心在于从复杂的金融文档中精准区分气候相关段落与非气候内容,这对模型理解专业术语与上下文语义提出了较高要求。在构建过程中,数据收集面临企业报告格式异构与语言表达多样化的困难,而标注环节则依赖领域专家对气候议题的深入理解,以确保标签的一致性与准确性。此外,数据集规模相对有限,可能影响模型在更广泛企业文本中的泛化能力,且商业使用受限于许可协议,这些因素共同构成了该数据集在实际应用中的主要挑战。
常用场景
经典使用场景
在环境金融与可持续信息披露领域,climate_detection数据集为文本分类任务提供了精准的标注资源。该数据集的核心应用场景在于自动识别企业年报和可持续发展报告中的气候相关段落,通过专家标注的二元分类标签,支持机器学习模型训练与评估。这一过程不仅提升了文本分析的效率,还为深入理解企业气候信息披露模式奠定了数据基础,成为环境、社会及治理(ESG)研究中的关键工具。
实际应用
在实际应用中,climate_detection数据集被金融机构、监管机构和咨询公司广泛采用。例如,投资机构利用基于该数据集训练的模型,快速扫描企业报告,评估其气候风险暴露与可持续发展绩效;监管机构则借助自动化工具监测企业合规性,确保气候信息披露的真实性与透明度。这些应用不仅提升了决策效率,还强化了市场对气候议题的监督能力。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作。例如,原论文作者基于数据集构建了气候信息披露与公司排放、声誉风险的关联分析模型,揭示了“廉价谈话”现象。后续研究进一步扩展了应用,如开发更精细的多标签分类系统,或结合自然语言处理技术探索信息披露的情感倾向。这些工作深化了数据集在环境金融、文本挖掘等交叉领域的学术影响力。
以上内容由遇见数据集搜集并总结生成



