five

UNDP/sdgi-corpus

收藏
Hugging Face2024-09-26 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/UNDP/sdgi-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
SDGi Corpus是一个用于文本分类的多语言数据集,包含超过7000个示例,涵盖英语、法语和西班牙语。数据集来源于联合国可持续发展目标(SDGs)的国家和地方自愿审查报告(VNRs和VLRs),并包含了丰富的元数据信息。数据集分为训练集和测试集,分别包含5880和1470个示例。每个示例包括文本、嵌入向量、标签和元数据。数据集的主要用途是文本分类任务,如多标签分类、主题建模等。

SDGi Corpus是一个用于文本分类的多语言数据集,包含超过7000个示例,涵盖英语、法语和西班牙语。数据集来源于联合国可持续发展目标(SDGs)的国家和地方自愿审查报告(VNRs和VLRs),并包含了丰富的元数据信息。数据集分为训练集和测试集,分别包含5880和1470个示例。每个示例包括文本、嵌入向量、标签和元数据。数据集的主要用途是文本分类任务,如多标签分类、主题建模等。
提供机构:
UNDP
原始信息汇总

数据集概述

数据集特征

  • text:字符串类型
  • embedding:浮点数序列类型
  • labels:整数序列类型
  • metadata:结构化数据,包含以下字段:
    • country:字符串类型
    • file_id:字符串类型
    • language:字符串类型
    • locality:字符串类型
    • size:字符串类型
    • type:字符串类型
    • year:整数类型

数据集分割

  • 训练集:包含5880个样本,总大小为124052504字节
  • 测试集:包含1470个样本,总大小为36948683字节

数据集大小

  • 下载大小:129951175字节
  • 数据集总大小:161001187字节

数据集配置

  • 默认配置:数据文件路径如下
    • 训练集:data/train-*
    • 测试集:data/test-*

数据集信息

  • 任务类别:文本分类
  • 支持语言:英语(en)、西班牙语(es)、法语(fr)
  • 标签:可持续发展目标(sustainable-development-goals, sdgs)
  • 数据集名称:SDGi Corpus
  • 数据集大小类别:1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作