five

ESG Multiclass Dataset

收藏
github2024-05-27 更新2024-05-31 收录
下载链接:
https://github.com/LCYgogogo/ESG-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
来自中国上市公司的综合ESG数据集,包含8,467个带标签的句子,涉及37个主题标签和3个质量标签。该数据集主要用于评估ESG报告的完整性,支持自动化分析、内容趋势预测等。

A comprehensive ESG dataset from Chinese listed companies, containing 8,467 labeled sentences covering 37 topic labels and 3 quality labels. This dataset is primarily utilized to evaluate the completeness of ESG reports, and supports automated analysis, content trend prediction and other related applications.
创建时间:
2024-05-27
原始信息汇总

ESG Multiclass Dataset

数据集描述

  • 环境 (E): 与环境因素相关的数据,如碳足迹、资源使用和废物管理。
  • 社会 (S): 涵盖社会方面的数据,如劳动实践、人权和社区参与。
  • 治理 (G): 关于治理问题的数据,如公司政策、董事会多样性和高管薪酬。

标注数据集

  • 总共标注了8,467个句子,每个句子有两个标签。
  • 数据集包括两个核心部分:主题标签数据集和质量标签数据集。

主题标签

  • 分类为36个不同类别,涵盖气候变化、员工健康和安全、社区参与等多个方面。
  • ESGTree提供了数据集中使用的ESG指标的结构化层次。每个标签均来自各种权威机构,确保全面覆盖与中国年度报告相关的ESG因素。

质量标签

  • 分为两类:“定量文本”和“定性文本”。

文件结构

  • data/
    • esgdata.xlsx - 包含所有数据点和标签。
  • README.md - 此文档文件。
  • LICENSE - 数据集的许可证。

数据集目的

  • 主要用于评估ESG报告的完整性。
  • 可用于ESG分类、自动生成和优化ESG报告、内容分析和趋势预测、开发投资决策支持系统、评估企业社会责任(CSR)策略等。

使用方法

  • 可以通过克隆仓库并将数据文件加载到首选的数据分析环境中来使用此数据集。

bash git clone https://github.com/LCYgogogo/ESG-dataset.git

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对中国上市公司ESG报告的全面分析。具体而言,研究团队从这些报告中提取了8,467个句子,并对其进行了双重标注。首先,这些句子被分类为36个不同的主题标签,涵盖了气候变化、员工健康与安全、社区参与等多个方面。其次,这些句子根据其内容性质被分为‘定量文本’和‘定性文本’两类。这种双重标注方法确保了数据集在主题覆盖和内容质量上的全面性和准确性。
特点
该数据集的主要特点在于其双重标注结构和广泛的主题覆盖。首先,双重标注机制不仅提供了详细的主题分类,还区分了文本的定量和定性特征,这为深入分析ESG报告提供了丰富的维度。其次,36个主题标签的设置确保了数据集能够全面反映企业在环境、社会和治理方面的表现,满足了学术研究和实际应用的多重需求。
使用方法
使用该数据集时,用户可以通过克隆GitHub仓库并加载数据文件到其首选的数据分析环境中。具体操作包括执行`git clone https://github.com/LCYgogogo/ESG-dataset.git`命令以获取数据集,随后在本地环境中加载`esgdata.xlsx`文件进行进一步分析。该数据集适用于多种应用场景,如ESG报告的自动化生成与优化、内容分析与趋势预测、投资决策支持系统的开发以及企业社会责任策略的评估。
背景与挑战
背景概述
随着企业透明度、伦理经营实践及可持续发展需求的日益增长,环境、社会和治理(ESG)报告已成为学术界和实务界关注的焦点。ESG Multiclass Dataset由匿名研究人员于2024年创建,旨在全面收集中国上市公司ESG报告中的数据,涵盖环境、社会和治理三大维度。该数据集包含8,467条经标注的句子,分为36个主题类别和两种质量标签,为评估ESG报告的完整性提供了丰富的资源。其结构化的ESG指标体系来源于多个权威机构,确保了数据的全面性和权威性,对推动ESG领域的研究与实践具有重要意义。
当前挑战
ESG Multiclass Dataset在构建过程中面临多重挑战。首先,ESG报告的内容多样且复杂,涵盖气候变化、员工健康与安全、社区参与等多个方面,导致数据标注的难度增加。其次,确保数据来源的权威性和覆盖的全面性也是一个重大挑战,需要从多个权威机构获取并整合ESG指标。此外,数据集的应用范围广泛,从自动化生成ESG报告到投资决策支持系统的开发,均需克服数据分析和模型构建中的技术难题。
常用场景
经典使用场景
在可持续发展和企业社会责任日益受到重视的背景下,ESG Multiclass Dataset成为研究中国上市公司ESG报告的重要资源。该数据集通过标注8,467个句子,涵盖环境、社会和治理三大领域的36个不同类别,为学者和从业者提供了详尽的ESG信息。其经典使用场景包括ESG报告的自动化生成与优化、内容分析及趋势预测,以及投资决策支持系统的开发。
实际应用
在实际应用中,ESG Multiclass Dataset被广泛用于评估企业的社会责任策略和投资决策。金融机构利用该数据集分析企业的ESG表现,以优化投资组合和风险管理。同时,企业自身也借助此数据集优化其ESG报告,提升透明度和市场信任度。此外,监管机构和非政府组织也使用该数据集监控和评估企业的ESG实践,推动行业标准的提升。
衍生相关工作
ESG Multiclass Dataset的发布催生了多项相关研究和工作。例如,基于该数据集的ESG报告自动化生成系统显著提高了报告编制的效率和准确性。此外,研究者利用此数据集开发了多种ESG趋势预测模型,为市场参与者提供了前瞻性的分析工具。这些衍生工作不仅丰富了ESG领域的研究内容,也推动了相关技术的实际应用和发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作