five

somosnlp/spa_climate_detection

收藏
Hugging Face2024-04-25 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/spa_climate_detection
下载链接
链接失效反馈
官方服务:
资源简介:
BERTIN-ClimID数据集是一个用于西班牙语文本分类的数据集,特别是针对与气候变化相关的文本。该数据集由多个来源的数据融合而成,包括新闻、社交媒体帖子、科学论文摘要等。数据集的结构包括问题、答案、领域、来源国家、语言、注册、任务和时期等字段。数据集的创建动机是为了填补西班牙语中关于气候变化、可持续性、全球变暖等主题的信息资源空白。数据集可用于新闻分类、科学论文分类和社交媒体帖子分类等场景。
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 数据集名称: BERTIN-ClimID
  • 数据集别名: ClimID
  • 许可证: cc-by-nc-sa-4.0
  • 任务类别: 文本分类
  • 语言: 西班牙语(es-ES, es-PE)
  • 标签: 气候
  • 数据集大小: 1K<n<10K

数据集描述

  • 策划者: Gerardo Huerta, Gabriela Zuñiga
  • 资助者: SomosNLP, HuggingFace
  • 数据来源: 多种开源资源融合

数据集结构

  • 问题(question): 文本内容
  • 答案(answer): 二元标签,与气候变化相关为1,不相关为0
  • 领域(domain): 文本相关的话题,包括"climate_change_reports", "miscellaneous_press", "climate_change"
  • 数据来源国家(Country of origin): "global", "Spain", "USA"
  • 语言(Language): 西班牙语的地理变体,包括"es_pe", "es_esp"
  • 注册(Registration): 语言的功能变体,包括"cult", "medium", "colloquial"
  • 任务(Task): 输入数据的目的
  • 时期(Period): 使用的语言所处的时代,本数据集使用现代语言

数据集创建

  • 动机: 创建一个西班牙语的关于气候变化、可持续性等话题的信息资源库
  • 源数据: 包括气候相关的新闻、社交媒体帖子、翻译的意见等
  • 数据收集和处理: 从多个来源收集并处理数据,包括翻译和标注

使用场景

  • 直接使用: 新闻分类、论文分类、社交媒体帖子分类
  • 超出范围的使用: 创建气候问题信息库、开发新的分类系统、创建新的数据集

许可证

  • 许可证详情: cc-by-nc-sa-4.0

引用信息

  • BibTeX引用:

    @misc{BERTIN-ClimID, author = {Gerardo Huerta, Gabriela Zuñiga}, title = {Dataset for BERTIN-ClimID: BERTIN-Base Climate-related text Identification}, month = April, year = 2024, url = {https://huggingface.co/datasets/somosnlp/spa_climate_detection} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作