somosnlp/spa_climate_detection

Name: somosnlp/spa_climate_detection
Creator: somosnlp
Published: 2024-04-25 01:44:27
License: 暂无描述

Hugging Face2024-04-25 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/spa_climate_detection

下载链接

链接失效反馈

官方服务：

资源简介：

BERTIN-ClimID数据集是一个用于西班牙语文本分类的数据集，特别是针对与气候变化相关的文本。该数据集由多个来源的数据融合而成，包括新闻、社交媒体帖子、科学论文摘要等。数据集的结构包括问题、答案、领域、来源国家、语言、注册、任务和时期等字段。数据集的创建动机是为了填补西班牙语中关于气候变化、可持续性、全球变暖等主题的信息资源空白。数据集可用于新闻分类、科学论文分类和社交媒体帖子分类等场景。

提供机构：

somosnlp

原始信息汇总

数据集概述

基本信息

数据集名称: BERTIN-ClimID
数据集别名: ClimID
许可证: cc-by-nc-sa-4.0
任务类别: 文本分类
语言: 西班牙语（es-ES, es-PE）
标签: 气候
数据集大小: 1K<n<10K

数据集描述

策划者: Gerardo Huerta, Gabriela Zuñiga
资助者: SomosNLP, HuggingFace
数据来源: 多种开源资源融合

数据集结构

问题（question）: 文本内容
答案（answer）: 二元标签，与气候变化相关为1，不相关为0
领域（domain）: 文本相关的话题，包括"climate_change_reports", "miscellaneous_press", "climate_change"
数据来源国家（Country of origin）: "global", "Spain", "USA"
语言（Language）: 西班牙语的地理变体，包括"es_pe", "es_esp"
注册（Registration）: 语言的功能变体，包括"cult", "medium", "colloquial"
任务（Task）: 输入数据的目的
时期（Period）: 使用的语言所处的时代，本数据集使用现代语言

数据集创建

动机: 创建一个西班牙语的关于气候变化、可持续性等话题的信息资源库
源数据: 包括气候相关的新闻、社交媒体帖子、翻译的意见等
数据收集和处理: 从多个来源收集并处理数据，包括翻译和标注

使用场景

直接使用: 新闻分类、论文分类、社交媒体帖子分类
超出范围的使用: 创建气候问题信息库、开发新的分类系统、创建新的数据集

许可证

许可证详情: cc-by-nc-sa-4.0

引用信息

BibTeX引用:

@misc{BERTIN-ClimID, author = {Gerardo Huerta, Gabriela Zuñiga}, title = {Dataset for BERTIN-ClimID: BERTIN-Base Climate-related text Identification}, month = April, year = 2024, url = {https://huggingface.co/datasets/somosnlp/spa_climate_detection} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集