alex-miller/oecd-dac-crs

Name: alex-miller/oecd-dac-crs
Creator: alex-miller
Published: 2024-04-19 12:19:39
License: 暂无描述

Hugging Face2024-04-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/alex-miller/oecd-dac-crs

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en - fr - es license: cc size_categories: - 1M<n<10M task_categories: - mask-generation pretty_name: OECD DAC CRS Project titles and descriptions dataset_info: features: - name: text dtype: string - name: Year dtype: int64 - name: ProjectNumber dtype: string - name: RecipientName dtype: string - name: RecipientCode dtype: int64 - name: DonorName dtype: string - name: DonorCode dtype: int64 - name: ProjectTitle dtype: string - name: SectorName dtype: string - name: PurposeName dtype: string - name: FlowName dtype: string - name: ChannelName dtype: string - name: ShortDescription dtype: string - name: LongDescription dtype: string splits: - name: train num_bytes: 1693492524 num_examples: 1870757 download_size: 700898490 dataset_size: 1693492524 configs: - config_name: default data_files: - split: train path: data/train-* tags: - finance --- # OECD DAC CRS Project titles and descriptions All unique project titles and descriptions from the OECD DAC Creditor Reporting System (CRS). https://stats.oecd.org/Index.aspx?DataSetCode=crs1 `text` column is the concatenation of Project Title, Short Description, and Long Description, and is also the column on which duplicate projects were removed. Other columns are included for metadata purposes, or if you want to create a new text column as a concatenation of additional data.

语言： - 英语 - 法语 - 西班牙语许可协议：CC 规模类别： - 100万<样本量<1000万任务类别： - 掩码生成数据集友好名称：OECD DAC CRS 项目标题与描述数据集信息：特征列： - 名称：文本（text），数据类型：字符串 - 名称：年份（Year），数据类型：64位整数 - 名称：项目编号（ProjectNumber），数据类型：字符串 - 名称：受援方名称（RecipientName），数据类型：字符串 - 名称：受援方代码（RecipientCode），数据类型：64位整数 - 名称：捐助方名称（DonorName），数据类型：字符串 - 名称：捐助方代码（DonorCode），数据类型：64位整数 - 名称：项目标题（ProjectTitle），数据类型：字符串 - 名称：部门名称（SectorName），数据类型：字符串 - 名称：用途名称（PurposeName），数据类型：字符串 - 名称：资金流名称（FlowName），数据类型：字符串 - 名称：渠道名称（ChannelName），数据类型：字符串 - 名称：简短描述（ShortDescription），数据类型：字符串 - 名称：详细描述（LongDescription），数据类型：字符串划分集： - 名称：训练集（train），字节数：1693492524，样本数量：1870757 下载大小：700898490 数据集总大小：1693492524 配置项： - 配置名称：默认（default），数据文件： - 划分集：训练集（train），路径：data/train-* 标签： - 金融（finance） # OECD DAC CRS 项目标题与描述本数据集收录了经济合作与发展组织发展援助委员会债权人报告系统（OECD DAC CRS）中的全部唯一项目标题与描述。数据源链接：https://stats.oecd.org/Index.aspx?DataSetCode=crs1 `文本（text）`列由项目标题、简短描述与详细描述拼接而成，同时也是用于剔除重复项目的基准列。其余列均用于元数据标注，或供用户按需拼接生成自定义文本列使用。

提供机构：

alex-miller

原始信息汇总

数据集概述

基本信息

名称: OECD DAC CRS Project titles and descriptions
语言: 英语、法语、西班牙语
许可证: cc
大小: 1M<n<10M
任务类别: mask-generation

数据集特征

text: 字符串类型，包含项目标题、简短描述和详细描述的组合。
Year: 整数类型
ProjectNumber: 字符串类型
RecipientName: 字符串类型
RecipientCode: 整数类型
DonorName: 字符串类型
DonorCode: 整数类型
ProjectTitle: 字符串类型
SectorName: 字符串类型
PurposeName: 字符串类型
FlowName: 字符串类型
ChannelName: 字符串类型
ShortDescription: 字符串类型
LongDescription: 字符串类型

数据集分割

训练集:
- 大小: 1693492524 字节
- 示例数量: 1870757

下载与数据集大小

下载大小: 700898490 字节
数据集大小: 1693492524 字节

配置

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在开发援助领域，数据整合与标准化是研究国际合作成效的基石。OECD DAC CRS数据集通过系统化采集经济合作与发展组织发展援助委员会（OECD DAC）的债权人报告系统（CRS）中的项目记录构建而成。其核心文本字段由项目标题、简短描述和详细描述拼接形成，并以此为基础去除重复条目，确保数据唯一性。同时，数据集保留了年份、项目编号、受援方与捐赠方信息、部门分类及资金流向等多维度元数据，为跨领域分析提供了结构化支持。

特点

该数据集涵盖超过180万条项目记录，规模庞大且时间跨度广泛，全面反映了全球发展援助的动态格局。其多语言特性体现在包含英语、法语和西班牙语文本，增强了国际研究的适用性。结构化特征设计精细，不仅包含文本描述，还整合了受援国与捐赠国的编码、部门分类及资金流动渠道等关键字段，支持从宏观经济到具体项目的多层次分析。数据遵循知识共享许可协议，兼具开放性与权威性，为政策评估和自然语言处理任务提供了可靠基础。

使用方法

研究人员可利用该数据集进行发展援助政策的趋势分析，通过年份与部门字段追踪资金分配演变。在自然语言处理领域，拼接后的文本列适用于文本生成、分类或语义相似度计算等任务，而丰富的元数据支持多模态模型训练。使用者可根据需求重新组合字段，例如将受援方信息与描述文本结合，以构建定制化的分析框架。数据以标准分割格式提供，可直接加载至主流机器学习平台，便于开展大规模实证研究。

背景与挑战

背景概述

OECD DAC CRS数据集由经济合作与发展组织发展援助委员会构建，其历史可追溯至二十世纪六十年代，旨在系统化追踪全球官方发展援助流动。该数据集汇集了成员国报告的发展合作项目信息，涵盖项目标题、详细描述及多维元数据，为国际发展政策研究提供了结构化数据基础。其核心研究问题聚焦于援助资金分配的有效性、透明度及影响力评估，通过标准化报告机制促进全球发展议程的协同推进，对发展经济学、公共政策及国际关系领域产生了深远影响，成为实证分析的关键资源。

当前挑战

该数据集致力于解决国际发展援助领域的复杂挑战，包括援助项目分类的模糊性、跨年度资金追踪的困难，以及援助效果量化评估的缺失。在构建过程中，面临数据标准化障碍，因各国报告格式与术语存在显著差异，需协调多语言文本与异构元数据；同时，数据完整性受限于成员国报告延迟与不一致性，且大规模文本描述的处理需克服自然语言歧义与信息冗余，确保高质量结构化数据的生成与维护。

常用场景

经典使用场景

在开发援助领域，OECD DAC CRS数据集为自然语言处理研究提供了丰富的文本资源。该数据集整合了经合组织发展援助委员会报告系统中的项目标题与描述，涵盖了多语言环境下的金融与发展项目信息。研究者常利用其进行文本分类、主题建模和语义分析，以揭示全球援助资金流动的模式与趋势。通过分析项目描述中的关键词汇和语境，能够深入理解援助项目的目标与实施重点，为政策评估提供数据支撑。

解决学术问题

该数据集有效解决了国际发展研究中的信息碎片化问题，为量化分析援助项目内容提供了结构化基础。学者借助其探索援助分配的效率与公平性，检验援助有效性理论，并识别跨部门合作中的潜在偏差。通过文本挖掘技术，研究者能够追溯援助政策的演变历程，评估可持续发展目标的实现进展，从而推动发展经济学与公共政策领域的实证研究迈向更深层次。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究，例如基于主题模型的援助项目聚类分析，以及利用机器学习预测援助效果的研究。部分工作聚焦于多语言文本的跨文化比较，探讨援助叙事中的话语差异。此外，结合地理信息的时空分析揭示了援助热点区域的动态变化，为区域发展研究提供了新的视角。这些成果丰富了发展数据科学的理论框架与方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集