five

ClimatePolicyRadar/global-stocktake-documents

收藏
Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ClimatePolicyRadar/global-stocktake-documents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与联合国气候变化框架公约(UNFCCC)全球盘点过程相关的文档元数据和解析的全文。数据集中的文档来自多个来源,如全球盘点信息门户、NDC注册表、适应通信注册表等。数据集中的文档被分组为‘文档家族’,每个文档家族包含一个或多个物理文档。数据集的使用受CC BY 4.0许可证的约束。
提供机构:
ClimatePolicyRadar
原始信息汇总

全球盘点开放数据集

数据集概述

该数据集包含与联合国气候变化框架公约(UNFCCC)全球盘点相关的文档元数据和解析的全文。数据来源包括全球盘点信息门户、NDC注册、适应通信注册、快速启动财务国家报告和IPCC报告等。

数据文件

  • metadata.csv: 包含每个文档的元数据,可能与源数据库中的元数据不同,已进行清理和补充。
  • full_text.parquet: 包含解析的每个文档的全文,每行是一个文本块(段落)及其相关元数据。

数据集信息

  • 语言: 英语
  • 标签: 气候、政策、法律
  • 大小类别: 1M<n<10M
  • 许可证: CC BY 4.0

数据集特征

  • family_slug: 字符串
  • types: 字符串序列
  • role: 字符串
  • block_index: 64位整数
  • date: 日期
  • geography_iso: 字符串
  • document_name: 字符串
  • variant: 字符串
  • type_confidence: 64位浮点数
  • document_languages: 字符串序列
  • text_block_id: 字符串
  • document_source_url: 字符串
  • author_is_party: 布尔值
  • type: 字符串
  • coords: 64位浮点数序列的序列
  • author: 字符串序列
  • family_name: 字符串
  • status: 字符串
  • collection_id: 字符串
  • family_id: 字符串
  • language: 字符串
  • page_number: 64位整数
  • text: 字符串
  • has_valid_text: 布尔值
  • document_id: 字符串
  • translated: 布尔值
  • document_content_type: 字符串
  • document_md5_sum: 字符串

数据分割

  • train: 包含1578645个样本,总字节数为1278730693

数据完整性

数据最后更新日期为2023-10-18。目前仅解析PDF文件的文本,非PDF文件仅在metadata.csv中引用。大约有150个文档因格式问题尚未处理。

数据模型

数据集中的文档被分组为“文档家族”,每个文档家族包含一个或多个物理文档,围绕一个主要文档,共同包含有关主要文档的所有相关信息。

字段描述

  • author: 文档作者(字符串)
  • author_is_party: 作者是否为缔约方(布尔值)
  • block_index: 文档中文本块的索引(整数)
  • coords: 文本块在页面上的坐标
  • date: 文档发布日期
  • document_content_type: 文件类型(仅解析了PDF)
  • document_id: 文档的唯一标识符
  • document_family_id: 文档家族的唯一标识符
  • document_family_slug: 文档家族的标识符
  • document_md5_sum: 文档内容的MD5校验和
  • document_name: 文档标题
  • document_source_url: 文档的URL
  • document_variant: 用于标识翻译(字符串)
  • has_valid_text: 根据解析器判断文本是否有效(布尔值)
  • language: 文本块的语言(字符串)
  • page_number: 文本块的页码(0索引)
  • text: 文本块的文本
  • text_block_id: 文本块的唯一标识符
  • translated: 是否已将文档机器翻译为英语(布尔值)
  • type: 文本块的类型(字符串)
  • type_confidence: 文本块类型的置信度(浮点数)
  • types: 文档类型的列表(字符串列表)
  • version: 文档版本(字符串)

已知问题

  • 作者名称有时会损坏
  • 文本块的语言有时会缺失或标记为nan

Python使用示例

  • 加载元数据CSV: python metadata = pd.read_csv("metadata.csv")

  • 加载文本块数据: python

    使用huggingface

    dataset = load_dataset("ClimatePolicyRadar/global-stocktake-documents")

    使用pandas

    text_blocks = pd.read_parquet("full_text.parquet")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作