ClimatePolicyRadar/global-stocktake-documents
收藏Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ClimatePolicyRadar/global-stocktake-documents
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与联合国气候变化框架公约(UNFCCC)全球盘点过程相关的文档元数据和解析的全文。数据集中的文档来自多个来源,如全球盘点信息门户、NDC注册表、适应通信注册表等。数据集中的文档被分组为‘文档家族’,每个文档家族包含一个或多个物理文档。数据集的使用受CC BY 4.0许可证的约束。
提供机构:
ClimatePolicyRadar
原始信息汇总
全球盘点开放数据集
数据集概述
该数据集包含与联合国气候变化框架公约(UNFCCC)全球盘点相关的文档元数据和解析的全文。数据来源包括全球盘点信息门户、NDC注册、适应通信注册、快速启动财务国家报告和IPCC报告等。
数据文件
metadata.csv: 包含每个文档的元数据,可能与源数据库中的元数据不同,已进行清理和补充。full_text.parquet: 包含解析的每个文档的全文,每行是一个文本块(段落)及其相关元数据。
数据集信息
- 语言: 英语
- 标签: 气候、政策、法律
- 大小类别: 1M<n<10M
- 许可证: CC BY 4.0
数据集特征
- family_slug: 字符串
- types: 字符串序列
- role: 字符串
- block_index: 64位整数
- date: 日期
- geography_iso: 字符串
- document_name: 字符串
- variant: 字符串
- type_confidence: 64位浮点数
- document_languages: 字符串序列
- text_block_id: 字符串
- document_source_url: 字符串
- author_is_party: 布尔值
- type: 字符串
- coords: 64位浮点数序列的序列
- author: 字符串序列
- family_name: 字符串
- status: 字符串
- collection_id: 字符串
- family_id: 字符串
- language: 字符串
- page_number: 64位整数
- text: 字符串
- has_valid_text: 布尔值
- document_id: 字符串
- translated: 布尔值
- document_content_type: 字符串
- document_md5_sum: 字符串
数据分割
- train: 包含1578645个样本,总字节数为1278730693
数据完整性
数据最后更新日期为2023-10-18。目前仅解析PDF文件的文本,非PDF文件仅在metadata.csv中引用。大约有150个文档因格式问题尚未处理。
数据模型
数据集中的文档被分组为“文档家族”,每个文档家族包含一个或多个物理文档,围绕一个主要文档,共同包含有关主要文档的所有相关信息。
字段描述
- author: 文档作者(字符串)
- author_is_party: 作者是否为缔约方(布尔值)
- block_index: 文档中文本块的索引(整数)
- coords: 文本块在页面上的坐标
- date: 文档发布日期
- document_content_type: 文件类型(仅解析了PDF)
- document_id: 文档的唯一标识符
- document_family_id: 文档家族的唯一标识符
- document_family_slug: 文档家族的标识符
- document_md5_sum: 文档内容的MD5校验和
- document_name: 文档标题
- document_source_url: 文档的URL
- document_variant: 用于标识翻译(字符串)
- has_valid_text: 根据解析器判断文本是否有效(布尔值)
- language: 文本块的语言(字符串)
- page_number: 文本块的页码(0索引)
- text: 文本块的文本
- text_block_id: 文本块的唯一标识符
- translated: 是否已将文档机器翻译为英语(布尔值)
- type: 文本块的类型(字符串)
- type_confidence: 文本块类型的置信度(浮点数)
- types: 文档类型的列表(字符串列表)
- version: 文档版本(字符串)
已知问题
- 作者名称有时会损坏
- 文本块的语言有时会缺失或标记为
nan
Python使用示例
-
加载元数据CSV: python metadata = pd.read_csv("metadata.csv")
-
加载文本块数据: python
使用huggingface
dataset = load_dataset("ClimatePolicyRadar/global-stocktake-documents")
使用pandas
text_blocks = pd.read_parquet("full_text.parquet")



