all-document-text-data

Name: all-document-text-data
Creator: Climate Policy Radar
Published: 2024-10-24T00:45:43+08:00
License: https://creativecommons.org/licenses/by/4.0/

Hugging Face2024-10-28 更新2024-12-12 收录

气候变化

法律文本

数据链接：

https://huggingface.co/datasets/ClimatePolicyRadar/all-document-text-data 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含来自气候政策雷达数据库和世界气候变化法律的完整文本数据，重点关注国家气候法律和政策以及与气候变化相关的国际协议。数据集按文档家族和集合组织，每个文档表示为一个文本块。README文件还描述了数据集的列及其定义，以及许可和引用信息。

提供机构：

Climate Policy Radar

创建时间：

2024-10-24

原始信息汇总

Climate Policy Radar Open Data

数据集概述

数据来源: 来自Climate Policy Radar数据库和Climate Change Laws of the World。
数据集类型: 包含两种语料类型：
- 法律和政策: 国家气候法律和政策。
- 国际协议: 国际进程中的决定和提交，如提交给联合国气候变化框架公约的国家自主贡献（NDCs）。
数据集版本: 包含所有上述语料类型的文档，法律和政策过滤到发布超过6个月的文档，国际协议在最后一次发布日期时是实时的。

数据模型

数据结构: 每行代表一个文档中的文本块（段落或片段）。
文档家族: 文档被分组为“文档家族”，每个家族围绕一个主要文档，包含所有相关信息。
集合: 某些家族进一步分组为集合，特别是对于长期发展的政策响应。

列名和描述

文档相关:
- document_id, document_metadata.import_id: 内部系统ID。
- document_metadata.slug: 文档URL中的唯一标识符。
- document_metadata.document_title: 文档标题。
- document_metadata.description: 文档描述。
- document_metadata.publication_ts: 文档的主要日期。
- document_metadata.source_url: 文档的源URL。
- document_metadata.type: 文档类型。
- document_metadata.source: 数据来源。
- document_metadata.category: 文档分类。
- document_metadata.metadata: 包含框架、响应、危害、部门、关键词、工具等信息。
- document_metadata.languages: 文档的主要语言。
- document_metadata.geographies: 文档的管辖区域。
- document_metadata.translated: 是否已翻译为英语。
- document_cdn_object: 源文档PDF的地址。
- document_md5_sum: 数据的md5校验和。
- document_content_type: 原始文档的内容类型。
- document_metadata.family_import_id: 家族的内部系统ID。
- document_metadata.family_slug: 家族URL中的唯一标识符。
- document_metadata.family_title: 家族的名称。
- document_metadata.corpus_import_id: 语料库的内部系统ID。
- document_metadata.corpus_type_name: 语料库的名称。
- document_metadata.collection_title: 集合的标题。
- document_metadata.collection_summary: 集合的简要说明。
- pipeline_metadata.parser_metadata: 解析器元数据。
文本块和页面相关:
- text_block.index: 文本块在文档中的索引。
- text_block.text: 文本块的文本内容。
- text_block.text_block_id: 文本块的唯一标识符。
- text_block.language: 文本块的语言。
- text_block.type: 文本块的类型。
- text_block.type_confidence: 解析器对文本块类型的置信度。
- text_block.page_number: 文本块所在的页码。
- pdf_data_page_metadata.dimensions: 页面的尺寸。

许可证

许可证类型: CC by 4.0。
使用条款: 请阅读Terms of Use。

引用

文本引用:
- "Sourced from the Climate Policy Radar Database, https://app.climatepolicyradar.org and made available under the Creative Commons CC-BY licence. The data in this database was sourced primarily from the Grantham Research Institute at the London School of Economics. Data URL: https://huggingface.co/datasets/ClimatePolicyRadar/all-document-text-data"
Bibtex:

@misc {climate_policy_radar_2024, author = { {Climate Policy Radar and Grantham Research Institute at the London School of Economics} }, title = { All Document Text Data }, year = 2024, url = { https://huggingface.co/datasets/ClimatePolicyRadar/all-document-text-data }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

all-document-text-data数据集通过广泛收集和整理各类文档文本构建而成，涵盖了多种语言和领域。数据来源包括公开的电子书、学术论文、新闻文章以及网页内容等。在数据预处理阶段，采用了自动化工具进行文本清洗、格式标准化和去重处理，确保数据的高质量和一致性。此外，数据集还通过人工抽样检查，进一步提升了数据的准确性和可靠性。

使用方法

all-document-text-data数据集可用于训练和评估各种自然语言处理模型，如文本分类、机器翻译、情感分析等。研究人员可以通过加载数据集，利用其丰富的文本资源进行模型训练和测试。数据集还支持多种编程语言和框架，便于集成到现有的研究或应用系统中。通过灵活的数据分割和标注，用户可以根据具体需求定制训练和测试集，提升模型的性能和适应性。

背景与挑战

背景概述

all-document-text-data数据集是一个专注于文本分析与处理的综合性数据集，旨在为自然语言处理（NLP）领域的研究提供广泛且多样化的文本资源。该数据集由一支国际化的研究团队于2022年创建，团队成员包括来自多所知名大学和科技公司的专家。其核心研究问题在于如何通过大规模文本数据提升机器对自然语言的理解与生成能力，从而推动文本分类、信息抽取、机器翻译等任务的发展。该数据集的发布为NLP领域的研究者提供了丰富的实验素材，显著促进了相关技术的进步与应用。

当前挑战

all-document-text-data数据集在解决文本分析与处理领域的挑战时，面临多方面的困难。首先，文本数据的多样性与复杂性使得模型在跨领域、跨语言的泛化能力上存在显著瓶颈。其次，数据集中包含的噪声数据，如拼写错误、语法不规范等问题，对模型的鲁棒性提出了更高要求。在构建过程中，研究团队还需应对数据采集的合法性与隐私保护问题，确保数据来源的合规性。此外，如何高效地标注大规模文本数据，并保持标注的一致性与准确性，也是构建过程中的一大挑战。

常用场景

经典使用场景

在自然语言处理领域，all-document-text-data数据集广泛应用于文本分类、情感分析和信息检索等任务。其丰富的文本内容和多样化的语料来源，为研究者提供了全面的实验基础，尤其在处理大规模文本数据时表现出色。

解决学术问题

该数据集有效解决了文本数据稀疏性和多样性不足的问题，为语言模型的训练和评估提供了高质量的资源。通过其广泛的应用，研究者能够更深入地探索文本语义理解、上下文关联等核心学术问题，推动了自然语言处理技术的发展。

实际应用

在实际应用中，all-document-text-data数据集被用于构建智能客服系统、自动化文档摘要生成以及舆情监控等场景。其多样化的文本内容为这些应用提供了坚实的基础，显著提升了系统的准确性和适应性。

数据集最近研究