ML-Promise
收藏arXiv2024-11-07 更新2024-11-12 收录
下载链接:
http://arxiv.org/abs/2411.04473v1
下载链接
链接失效反馈官方服务:
资源简介:
ML-Promise是一个多语言数据集,旨在促进对环境、社会和治理(ESG)报告中企业承诺的深入验证。该数据集包含英语、法语、中文、日语和韩语,涵盖了来自英国、法国、台湾、日本和韩国的ESG报告。数据集的创建过程包括承诺识别、支持证据链接、承诺与证据清晰度评估以及验证时间推断。ML-Promise的应用领域主要集中在评估企业承诺的真实性和透明度,特别是在防止绿色清洗(greenwashing)方面。
ML-Promise is a multilingual dataset developed to facilitate in-depth validation of corporate commitments disclosed in environmental, social, and governance (ESG) reports. It encompasses ESG reports in five languages—English, French, Chinese, Japanese, and Korean—sourced from the United Kingdom, France, China's Taiwan, Japan, and the Republic of Korea. The construction of ML-Promise involves four key procedures: commitment identification, supporting evidence linking, evaluation of the clarity of both commitments and their associated supporting evidence, and inference of validation timelines. The primary application domains of ML-Promise center on assessing the authenticity and transparency of corporate commitments, with a particular focus on preventing greenwashing.
提供机构:
筑波大学图书馆、信息与媒体科学研究所,筑波大学信息学院知识与图书馆科学学院,3DS Outscale,法国,新韩证券公司,韩国,国立台北大学信息管理研究生院,日本AIST
创建时间:
2024-11-07
搜集汇总
数据集介绍

构建方式
ML-Promise数据集的构建基于对五个国家(英国、法国、台湾、日本和韩国)的企业环境、社会和治理(ESG)报告的深入分析。该数据集由母语为相关语言或对这些语言有工作级熟悉度的注释者进行标注,确保了数据的高质量与文化敏感性。数据集的构建过程包括四个主要任务:承诺识别、支持证据的存在性、承诺与证据对的清晰度评估,以及验证承诺的时间框架。这些任务的设计旨在系统化地评估企业承诺的可信度与履行情况,特别是在ESG报告的背景下。
特点
ML-Promise数据集的一个显著特点是其多语言性,涵盖了英语、法语、中文、日语和韩语,这使得该数据集能够支持跨文化的企业承诺验证研究。此外,数据集还包含了文本和图像两种形式的ESG报告,这为多模态学习提供了可能性。数据集的统计数据显示,约35-40%的证据在支持相关承诺时被标注为“不清晰”,这突显了评估承诺与证据对质量的必要性。此外,数据集中约4%的实例包含可能误导的证据,这强调了企业重新审视其证据的重要性。
使用方法
ML-Promise数据集的使用方法多样,适用于多种自然语言处理任务,如承诺识别、证据提取、承诺与证据对的清晰度评估以及验证时间框架的推断。研究者可以利用该数据集训练和评估模型,以提高企业承诺验证的准确性和可靠性。特别是,数据集支持的RAG(Retrieval-Augmented Generation)方法,通过结合外部知识源,显著提升了模型的性能。此外,数据集的多模态特性也允许研究者探索图像和文本结合的分析方法,从而更全面地理解ESG报告中的信息。
背景与挑战
背景概述
在当今社会,政治家、企业领袖和公众人物的承诺对公众认知、信任和机构声誉具有重大影响。然而,这些承诺的复杂性和数量,以及验证其履行情况的困难,促使了创新方法的必要性。ML-Promise数据集由日本筑波大学、法国3DS Outscale、韩国新韩证券公司、台湾国立台北大学和日本AIST的研究人员共同创建,旨在通过多语言(包括英语、法语、中文、日语和韩语)数据集,深入验证企业承诺,特别是在环境、社会和治理(ESG)报告的背景下。该数据集的创建不仅强调了透明度和问责制的重要性,还为评估企业承诺,特别是应对绿色清洗现象,提供了新的工具。
当前挑战
ML-Promise数据集面临的挑战包括:首先,验证企业承诺的复杂性,特别是在ESG报告缺乏明确标准的情况下,如何准确评估承诺的真实性和履行情况。其次,数据集构建过程中遇到的语言多样性问题,不同语言在表达承诺和提供证据时的差异,增加了数据标注和模型训练的难度。此外,如何处理和评估图像形式的ESG报告,以及如何优化检索增强生成(RAG)方法以适应不同语言和任务,也是当前的主要挑战。这些问题的解决不仅需要技术创新,还需要跨文化和跨领域的深入研究。
常用场景
经典使用场景
ML-Promise数据集在企业承诺验证领域中扮演着至关重要的角色。其经典使用场景包括对环境、社会和治理(ESG)报告中企业承诺的识别、支持证据的关联、承诺与证据清晰度的评估以及验证时机的推断。通过这些步骤,ML-Promise不仅能够帮助识别企业是否履行了其承诺,还能评估这些承诺的可信度和透明度,特别是在防止绿色清洗(greenwashing)方面。
衍生相关工作
ML-Promise数据集的推出催生了多项相关研究工作。例如,研究者们利用该数据集开发了多语言承诺验证模型,提升了跨语言环境下的验证准确性。此外,ML-Promise还激发了对多模态学习方法的研究,特别是在处理ESG报告中的图像和文本信息时。这些研究不仅提升了承诺验证的效率和准确性,还为未来的多语言和多模态数据处理提供了新的思路和方法。
数据集最近研究
最新研究方向
在环境、社会和治理(ESG)报告日益受到重视的背景下,ML-Promise数据集的最新研究方向主要集中在多语言环境下的企业承诺验证。该数据集不仅涵盖了英语、法语、中文、日语和韩语,还特别关注了企业在ESG报告中的承诺及其验证。研究者们通过引入检索增强生成(RAG)方法,提升了对承诺识别、支持证据评估以及验证时机推断的准确性。此外,研究还探索了图像和文本结合的多模态输入方式,以应对ESG报告中常见的PDF格式和图表信息。这些研究不仅有助于提升企业承诺的透明度和可信度,也为全球范围内的ESG报告分析提供了新的工具和方法。
相关研究论文
- 1ML-Promise: A Multilingual Dataset for Corporate Promise Verification筑波大学图书馆、信息与媒体科学研究所,筑波大学信息学院知识与图书馆科学学院,3DS Outscale,法国,新韩证券公司,韩国,国立台北大学信息管理研究生院,日本AIST · 2024年
以上内容由遇见数据集搜集并总结生成



