Dhoroni

Name: Dhoroni
Creator: 工业与生产工程系，沙贾哈特大学科学与技术学院
Published: 2024-10-23 01:47:05
License: 暂无描述

arXiv2024-10-23 更新2024-10-24 收录

下载链接：

http://arxiv.org/abs/2410.17225v1

下载链接

链接失效反馈

官方服务：

资源简介：

Dhoroni数据集是由沙贾哈特大学科学与技术学院的工业与生产工程系创建的，包含2300篇孟加拉语新闻文章，专注于气候变化和环境问题。数据集通过多角度标注，涵盖政治影响、科学数据、立场检测等多个方面。创建过程包括原始数据收集、数据解析和数据标注。该数据集旨在解决孟加拉语地区在气候变化和环境问题上的研究空白，支持自然语言处理技术在气候话语分析中的应用，促进环境管理和政策制定。

The Dhoroni dataset was developed by the Department of Industrial and Production Engineering under the Faculty of Science and Technology of Shahjalal University of Science and Technology. It comprises 2,300 Bengali news articles centered on climate change and environmental issues. The dataset adopts multi-angle annotation, covering multiple dimensions such as political impacts, scientific data, stance detection and other relevant aspects. The dataset development workflow includes raw data collection, data parsing and data annotation. This dataset aims to fill the research gap concerning climate change and environmental issues in Bengali-speaking regions, support the application of natural language processing (NLP) technologies in climate discourse analysis, and promote environmental management and policy formulation.

提供机构：

工业与生产工程系，沙贾哈特大学科学与技术学院

创建时间：

2024-10-23

搜集汇总

数据集介绍

构建方式

Dhoroni数据集通过精心收集和标注2300篇孟加拉语新闻文章构建而成，涵盖了气候变化和环境问题的多个视角。数据集的构建过程包括原始数据收集、数据解析和数据标注三个核心步骤。首先，通过关键词筛选确保数据集覆盖气候变化和环境污染的关键主题；其次，通过爬虫技术从多个新闻平台和相关网站收集文章，并进行初步存储；最后，通过三名标注者的独立标注和结果整合，确保数据集的多视角标注质量。

特点

Dhoroni数据集的显著特点在于其多视角的标注方式，涵盖了立场检测、政治影响、科学/统计数据提及、数据来源、新闻真实性、受影响地区、气候/环境主题、新闻目标和权威机构参与等十个不同视角。此外，数据集还提供了详细的探索性分析，帮助用户深入理解每个视角的定义和统计分布，从而更好地应用于自然语言处理任务。

使用方法

Dhoroni数据集适用于多种自然语言处理任务，包括立场检测、新闻真实性识别、政治影响检测等。用户可以通过加载数据集中的标注数据，结合预训练的BanglaBERT-Dhoroni模型家族进行微调，以实现特定任务的模型训练和评估。此外，数据集还提供了详细的探索性分析和统计信息，帮助用户在实际应用中更好地理解和利用数据。

背景与挑战

背景概述

Dhoroni数据集由Azmine Toushik Wasi等研究人员于2024年创建，旨在填补孟加拉语气候变化和环境观点研究中的空白。该数据集包含2300篇孟加拉语新闻文章，涵盖了气候变化和环境问题的多个视角，如政治影响、科学数据、立场检测等。通过详细的探索性分析和十种不同的标注视角，Dhoroni数据集为孟加拉语气候变化话语的分析提供了丰富的资源。此外，研究团队还开发了基于BanglaBERT的Dhoroni模型家族，用于不同任务的基准测试，展示了在不同任务中的稳定性能。这一研究不仅增强了孟加拉语气候讨论的可访问性和分析性，还为气候影响地区的沟通和研究差距提供了重要解决方案。

当前挑战

Dhoroni数据集面临的挑战主要集中在解决领域问题和构建过程中。首先，该数据集旨在解决孟加拉语气候变化和环境观点的领域问题，这需要克服语言资源有限和国际舞台上语言代表性不足的问题。其次，在构建过程中，研究人员面临了多视角标注的复杂性，确保标注的一致性和准确性是一个重大挑战。此外，数据集的动态性要求定期更新，以反映气候科学、政策和公众情绪的最新发展。最后，尽管数据集在多个任务中展示了稳定的性能，但在某些复杂任务如气候/环境主题检测和新闻目标检测中，模型的表现仍有待提升。

常用场景

经典使用场景

Dhoroni数据集的经典使用场景在于通过自然语言处理技术，深入分析孟加拉语新闻文章中关于气候变化和环境问题的多角度观点。该数据集包含了2300篇经过多重标注的新闻文章，涵盖了政治影响、科学数据、新闻真实性等多个维度。通过这些标注，研究者可以训练模型来检测新闻中的立场、政治影响、科学数据的使用情况等，从而为气候变化和环境问题的研究提供丰富的语料库。

实际应用

在实际应用中，Dhoroni数据集可以被政府机构、非政府组织和媒体机构用于监测和分析公众对气候变化的态度和反应。例如，政策制定者可以利用该数据集来评估公众对气候政策的接受度，从而调整和优化政策。媒体机构则可以通过分析数据集中的新闻内容，提高报道的准确性和客观性，减少气候变化相关信息的误导。此外，该数据集还可以用于教育和培训，帮助公众更好地理解气候变化及其影响。

衍生相关工作

Dhoroni数据集的发布催生了一系列相关研究工作，特别是在孟加拉语自然语言处理领域。例如，基于该数据集，研究者开发了BanglaBERT-Dhoroni系列模型，用于检测新闻中的立场、政治影响和科学数据使用情况。这些模型不仅提升了孟加拉语NLP任务的性能，还为其他低资源语言的类似研究提供了参考。此外，该数据集还激发了对多语言气候变化叙事的研究，推动了全球范围内气候变化相关数据的多样性和包容性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集