somosnlp/spa_climate_detection
收藏Hugging Face2024-04-25 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/spa_climate_detection
下载链接
链接失效反馈官方服务:
资源简介:
BERTIN-ClimID数据集是一个用于西班牙语文本分类的数据集,特别是针对与气候变化相关的文本。该数据集由多个来源的数据融合而成,包括新闻、社交媒体帖子、科学论文摘要等。数据集的结构包括问题、答案、领域、来源国家、语言、注册、任务和时期等字段。数据集的创建动机是为了填补西班牙语中关于气候变化、可持续性、全球变暖等主题的信息资源空白。数据集可用于新闻分类、科学论文分类和社交媒体帖子分类等场景。
提供机构:
somosnlp
原始信息汇总
数据集概述
基本信息
- 数据集名称: BERTIN-ClimID
- 数据集别名: ClimID
- 许可证: cc-by-nc-sa-4.0
- 任务类别: 文本分类
- 语言: 西班牙语(es-ES, es-PE)
- 标签: 气候
- 数据集大小: 1K<n<10K
数据集描述
- 策划者: Gerardo Huerta, Gabriela Zuñiga
- 资助者: SomosNLP, HuggingFace
- 数据来源: 多种开源资源融合
数据集结构
- 问题(question): 文本内容
- 答案(answer): 二元标签,与气候变化相关为1,不相关为0
- 领域(domain): 文本相关的话题,包括"climate_change_reports", "miscellaneous_press", "climate_change"
- 数据来源国家(Country of origin): "global", "Spain", "USA"
- 语言(Language): 西班牙语的地理变体,包括"es_pe", "es_esp"
- 注册(Registration): 语言的功能变体,包括"cult", "medium", "colloquial"
- 任务(Task): 输入数据的目的
- 时期(Period): 使用的语言所处的时代,本数据集使用现代语言
数据集创建
- 动机: 创建一个西班牙语的关于气候变化、可持续性等话题的信息资源库
- 源数据: 包括气候相关的新闻、社交媒体帖子、翻译的意见等
- 数据收集和处理: 从多个来源收集并处理数据,包括翻译和标注
使用场景
- 直接使用: 新闻分类、论文分类、社交媒体帖子分类
- 超出范围的使用: 创建气候问题信息库、开发新的分类系统、创建新的数据集
许可证
- 许可证详情: cc-by-nc-sa-4.0
引用信息
-
BibTeX引用:
@misc{BERTIN-ClimID, author = {Gerardo Huerta, Gabriela Zuñiga}, title = {Dataset for BERTIN-ClimID: BERTIN-Base Climate-related text Identification}, month = April, year = 2024, url = {https://huggingface.co/datasets/somosnlp/spa_climate_detection} }



