ClimatePolicyRadar/global-stocktake-documents

Name: ClimatePolicyRadar/global-stocktake-documents
Creator: ClimatePolicyRadar
Published: 2024-02-19 15:00:19
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ClimatePolicyRadar/global-stocktake-documents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与联合国气候变化框架公约（UNFCCC）全球盘点过程相关的文档元数据和解析的全文。数据集中的文档来自多个来源，如全球盘点信息门户、NDC注册表、适应通信注册表等。数据集中的文档被分组为‘文档家族’，每个文档家族包含一个或多个物理文档。数据集的使用受CC BY 4.0许可证的约束。

提供机构：

ClimatePolicyRadar

原始信息汇总

全球盘点开放数据集

数据集概述

该数据集包含与联合国气候变化框架公约（UNFCCC）全球盘点相关的文档元数据和解析的全文。数据来源包括全球盘点信息门户、NDC注册、适应通信注册、快速启动财务国家报告和IPCC报告等。

数据文件

metadata.csv: 包含每个文档的元数据，可能与源数据库中的元数据不同，已进行清理和补充。
full_text.parquet: 包含解析的每个文档的全文，每行是一个文本块（段落）及其相关元数据。

数据集信息

语言: 英语
标签: 气候、政策、法律
大小类别: 1M<n<10M
许可证: CC BY 4.0

数据集特征

family_slug: 字符串
types: 字符串序列
role: 字符串
block_index: 64位整数
date: 日期
geography_iso: 字符串
document_name: 字符串
variant: 字符串
type_confidence: 64位浮点数
document_languages: 字符串序列
text_block_id: 字符串
document_source_url: 字符串
author_is_party: 布尔值
type: 字符串
coords: 64位浮点数序列的序列
author: 字符串序列
family_name: 字符串
status: 字符串
collection_id: 字符串
family_id: 字符串
language: 字符串
page_number: 64位整数
text: 字符串
has_valid_text: 布尔值
document_id: 字符串
translated: 布尔值
document_content_type: 字符串
document_md5_sum: 字符串

数据分割

train: 包含1578645个样本，总字节数为1278730693

数据完整性

数据最后更新日期为2023-10-18。目前仅解析PDF文件的文本，非PDF文件仅在metadata.csv中引用。大约有150个文档因格式问题尚未处理。

数据模型

数据集中的文档被分组为“文档家族”，每个文档家族包含一个或多个物理文档，围绕一个主要文档，共同包含有关主要文档的所有相关信息。

字段描述

author: 文档作者（字符串）
author_is_party: 作者是否为缔约方（布尔值）
block_index: 文档中文本块的索引（整数）
coords: 文本块在页面上的坐标
date: 文档发布日期
document_content_type: 文件类型（仅解析了PDF）
document_id: 文档的唯一标识符
document_family_id: 文档家族的唯一标识符
document_family_slug: 文档家族的标识符
document_md5_sum: 文档内容的MD5校验和
document_name: 文档标题
document_source_url: 文档的URL
document_variant: 用于标识翻译（字符串）
has_valid_text: 根据解析器判断文本是否有效（布尔值）
language: 文本块的语言（字符串）
page_number: 文本块的页码（0索引）
text: 文本块的文本
text_block_id: 文本块的唯一标识符
translated: 是否已将文档机器翻译为英语（布尔值）
type: 文本块的类型（字符串）
type_confidence: 文本块类型的置信度（浮点数）
types: 文档类型的列表（字符串列表）
version: 文档版本（字符串）

已知问题

作者名称有时会损坏
文本块的语言有时会缺失或标记为nan

Python使用示例

加载元数据CSV: python metadata = pd.read_csv("metadata.csv")
加载文本块数据: python

使用huggingface

dataset = load_dataset("ClimatePolicyRadar/global-stocktake-documents")

使用pandas

text_blocks = pd.read_parquet("full_text.parquet")

5,000+

优质数据集

54 个

任务类型

进入经典数据集