UNDP/sdgi-corpus
收藏Hugging Face2024-09-26 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/UNDP/sdgi-corpus
下载链接
链接失效反馈官方服务:
资源简介:
SDGi Corpus是一个用于文本分类的多语言数据集,包含超过7000个示例,涵盖英语、法语和西班牙语。数据集来源于联合国可持续发展目标(SDGs)的国家和地方自愿审查报告(VNRs和VLRs),并包含了丰富的元数据信息。数据集分为训练集和测试集,分别包含5880和1470个示例。每个示例包括文本、嵌入向量、标签和元数据。数据集的主要用途是文本分类任务,如多标签分类、主题建模等。
SDGi Corpus是一个用于文本分类的多语言数据集,包含超过7000个示例,涵盖英语、法语和西班牙语。数据集来源于联合国可持续发展目标(SDGs)的国家和地方自愿审查报告(VNRs和VLRs),并包含了丰富的元数据信息。数据集分为训练集和测试集,分别包含5880和1470个示例。每个示例包括文本、嵌入向量、标签和元数据。数据集的主要用途是文本分类任务,如多标签分类、主题建模等。
提供机构:
UNDP
原始信息汇总
数据集概述
数据集特征
- text:字符串类型
- embedding:浮点数序列类型
- labels:整数序列类型
- metadata:结构化数据,包含以下字段:
- country:字符串类型
- file_id:字符串类型
- language:字符串类型
- locality:字符串类型
- size:字符串类型
- type:字符串类型
- year:整数类型
数据集分割
- 训练集:包含5880个样本,总大小为124052504字节
- 测试集:包含1470个样本,总大小为36948683字节
数据集大小
- 下载大小:129951175字节
- 数据集总大小:161001187字节
数据集配置
- 默认配置:数据文件路径如下
- 训练集:
data/train-* - 测试集:
data/test-*
- 训练集:
数据集信息
- 任务类别:文本分类
- 支持语言:英语(en)、西班牙语(es)、法语(fr)
- 标签:可持续发展目标(sustainable-development-goals, sdgs)
- 数据集名称:SDGi Corpus
- 数据集大小类别:1K<n<10K



