africa-sudan-languages

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-sudan-languages

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“苏丹：语言”，由CLEAR Global（原Translators without Borders）发布，数据来源于AfroBarometer并通过HDX平台获取。数据集包含苏丹家庭主要使用语言的人口比例时间序列观测数据，共5行16列（4个数值型、10个类别型、2个日期时间型），分为4个训练样本和1个测试样本。数据涵盖地理编码（如location_code）、时间信息（如datetime_published）、人口统计（如language_name, language_rank）和测量指标（如proportion_value）等多个维度。数据集经过Electric Sheep Africa处理，转换为Parquet格式并进行了标准化清洗，适用于人口统计和语言使用模式分析等任务。需要注意的是，数据未经独立验证且可能存在原始收集偏差。

This dataset is named "Sudan: Languages" and published by CLEAR Global (formerly Translators without Borders). Data was sourced from AfroBarometer and obtained via the HDX platform. It contains time-series observational data on the proportion of the population using dominant household languages in Sudan, with a total of 5 rows and 16 columns including 4 numeric columns, 10 categorical columns, and 2 datetime columns. The dataset is split into 4 training samples and 1 test sample. The data covers multiple dimensions such as geocoding (e.g., location_code), temporal information (e.g., datetime_published), demographic attributes (e.g., language_name, language_rank), and measurement indicators (e.g., proportion_value). Processed by Electric Sheep Africa, the dataset was converted to Parquet format, standardized and cleaned, making it suitable for tasks including demographic analysis and language usage pattern research. Notably, the data has not been independently verified and may contain biases from the original data collection process.

创建时间：

2026-04-08

原始信息汇总

数据集概述：Sudan: Languages

基本信息

数据集名称：Sudan: Languages
发布者：CLEAR Global (前身为 Translators without Borders)
原始来源：HDX (https://data.humdata.org/dataset/sudan-languages)
数据提供者：AfroBarometer
许可证：cc-by-sa-4.0
语言：英语 (en)
多语言性：单语种
数据规模：n<1K
注释创建者：无注释
语言创建者：发现
任务类别：其他
标签：africa, humanitarian, hdx, electric-sheep-africa, languages, sdn
最后更新日期：2026-04-08
ML格式处理方：Electric Sheep Africa (https://huggingface.co/electricsheepafrica)

数据集特征

领域：人口统计学与人口
观察单位：时间序列观测值
总行数：5
列数：16 (4个数值型，10个分类型，2个日期时间型)
训练集拆分：4行
测试集拆分：1行
地理范围：SDN (苏丹)

数据内容摘要

该数据集包含苏丹家庭主要使用语言的人口比例数据。数据来自AfroBarometer。每一行代表一个时间序列观测值。时间覆盖范围由 datetime_published 和 date_creation 列表示。

变量（列）说明

地理相关：location_code (SDN), location_name (Sudan), location_level (范围 0.0–0.0), reliability_score (范围 0.5634–0.5634), representivity_rating (moderate)。
时间相关：datetime_published, date_creation。
人口统计相关：language_code (例如 stan1293, Unknown, beja1238), language_name (例如 English, Unknown, Beja), language_rank (范围 1.0–5.0)。
结果/测量值：proportion_value (范围 0.0026–0.9789)。
标识符/元数据：dataset_name (Sudan Round 9 data (2022)), source (AfroBarometer), esa_source (HDX), esa_processed (2026-04-08)。
其他：url (指向原始数据文件的链接)。

数据模式与统计摘要

所有列的空值百分比：0.0%。
数值列统计摘要：
- location_level: 最小值 0.0，最大值 0.0，平均值 0.0，中位数 0.0。
- language_rank: 最小值 1.0，最大值 5.0，平均值 3.0，中位数 3.0。
- proportion_value: 最小值 0.0026，最大值 0.9789，平均值 0.2，中位数 0.0049。
- reliability_score: 最小值 0.5634，最大值 0.5634，平均值 0.5634，中位数 0.5634。

数据预处理与局限性

预处理流程：原始数据通过CKAN API从HDX下载并转换为Parquet格式。列名被转换为小写蛇形命名。常见的缺失值标记被统一为NaN。基于解析成功率（>85%阈值），2个列从字符串类型转换为数值或日期时间类型。数据集使用固定的随机种子（42）按80/20的比例拆分为训练集和测试集，并保存为Snappy压缩的Parquet文件。
局限性：
1. 数据源自CLEAR Global，未经ESA独立验证。
2. 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
3. 建议参考原始HDX数据集页面以了解发布者自身的方法说明和注意事项。

使用方式

python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-sudan-languages")

引用格式

bibtex @dataset{hdx_africa_sudan_languages, title = {Sudan: Languages}, author = {CLEAR Global (previously Translators without Borders)}, year = {2026}, url = {https://data.humdata.org/dataset/sudan-languages}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总

数据集介绍

构建方式

在人口统计学与语言资源管理领域，苏丹语言数据集通过系统化的数据采集与处理流程构建而成。原始数据源自非洲晴雨表（AfroBarometer）的实地调查，由CLEAR Global（前身为Translators without Borders）整理并发布于人道主义数据交换平台（HDX）。Electric Sheep Africa团队通过CKAN API获取原始数据，执行了列名标准化、缺失值统一及类型转换等自动化清洗步骤，最终将数据转换为适合机器学习应用的Parquet格式，并按照80:20的比例划分为训练集与测试集，确保了数据的结构一致性与可用性。

特点

该数据集以时间序列观测为核心，聚焦于苏丹家庭主要语言使用的人口比例分布，体现了多维度特征融合的特点。数据集共包含5条观测记录，涵盖16个变量，其中整合了地理编码、语言标识、时间戳及可靠性评分等多类信息。语言变量采用国际标准编码（如stan1293、beja1238），并辅以语言名称与使用排名；比例值字段精确反映了各语言群体在人口中的占比，范围从0.0026至0.9789。数据集在保持原始调查代表性的同时，通过自动化流程提升了数据的一致性，为跨区域语言动态研究提供了结构化基础。

使用方法

在语言政策分析与人道主义资源配置研究中，该数据集可直接应用于机器学习模型的训练与评估。使用者可通过Hugging Face的datasets库快速加载数据，利用Python环境将数据转换为Pandas DataFrame以进行后续分析。数据已预分为训练集（4条）与测试集（1条），适合用于小规模建模或作为更大语言数据集的补充。分析时可重点关注语言比例随时间或地域的变化趋势，结合可靠性评分与代表性评级评估数据的稳健性。需要注意的是，数据来源于第三方调查机构，使用时应参考原始发布方的方法说明以理解潜在偏差。

背景与挑战

背景概述

在全球化与数字人文主义浪潮中，语言多样性数据的系统化采集成为理解社会结构与文化动态的关键。非洲苏丹语言数据集由CLEAR Global（前身为Translators without Borders）于2026年发布，依托AfroBarometer调查数据，聚焦苏丹家庭主要语言使用的人口比例。该数据集旨在为人口统计学、语言政策及人道主义响应提供量化依据，通过Electric Sheep Africa团队转化为机器学习可用格式，推动了多语言资源在非洲语境下的可计算性研究。

当前挑战

该数据集致力于解决语言人口统计中的量化表征挑战，其核心在于从稀疏且异构的调查数据中提取可靠的语言分布模式。构建过程中，原始数据的采样偏差与定义不一致性构成了主要障碍，自动化清洗流程难以校正误报值或方法论差异。此外，数据集规模有限（仅5条时间序列观测），地理层级单一，限制了模型在细粒度语言动态或跨区域比较中的泛化能力，需结合外部验证以增强统计稳健性。

常用场景

经典使用场景

在人口统计学与语言资源管理领域，该数据集为研究者提供了苏丹家庭主要语言使用比例的时序观测数据。经典应用场景聚焦于分析语言多样性及其随时间演变的趋势，通过量化不同语言在人口中的分布比例，支持对语言活力与社会融合状况的评估。这类数据常被用于构建语言地图或模型，以可视化语言使用的空间与时间格局，为跨学科研究奠定实证基础。

解决学术问题

该数据集有效解决了语言社会学与发展研究中关于语言多样性测量的关键问题。通过提供标准化的语言代码、排名及比例数值，它帮助学者克服了传统调查中数据碎片化与可比性不足的挑战。其意义在于为语言变迁、多语社区的语言政策影响以及人道主义语境下的语言需求分析提供了可靠的数据支撑，推动了基于证据的学术讨论与政策制定。

衍生相关工作

围绕该数据集衍生的经典工作主要包括语言资源数字化项目与跨区域比较研究。例如，CLEAR Global 基于此类数据构建了开源语言地图平台，促进了全球语言数据的集成与共享。同时，学者们利用其时间序列特征，开展了非洲语言生态的纵向分析，并与 AfroBarometer 等其他调查数据结合，探索语言使用与社会经济指标之间的关联性，丰富了语言规划领域的实证文献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集