chichewa-text2sql

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/johneze/chichewa-text2sql

下载链接

链接失效反馈

官方服务：

资源简介：

Chichewa Text-to-SQL 是首个针对奇契瓦语（一种低资源的班图语，在马拉维及周边地区有超过1200万人使用）的结构化文本到SQL基准数据集。该数据集包含400个手动整理的自然语言-SQL对，涵盖奇契瓦语（Nyanja）和英语，基于一个统一的SQLite关系型数据库，覆盖了马拉维五个真实世界的领域。数据集旨在研究大型语言模型（LLMs）在奇契瓦语文本到SQL生成中的适应性，支持零样本、少样本（随机和检索增强）以及参数高效微调（QLoRA）方法的系统评估。数据集包含五个表格，分别涉及农业生产、人口普查、股票交易、商品价格和粮食不安全指标。每个样本包含英文问题、奇契瓦语问题、SQL语句、SQL结果、难度级别和所属表格。数据集分为训练集、开发集和测试集，总样本量为400个。

创建时间：

2026-02-28

原始信息汇总

Chichewa Text-to-SQL 数据集概述

基本信息

数据集名称：Chichewa Text-to-SQL
发布地址：https://huggingface.co/datasets/johneze/chichewa-text2sql
许可证：MIT
支持语言：奇契瓦语 (Nyanja)、英语 (English)
任务类别：表格问答
标签：text-to-sql、chichewa、low-resource-language、semantic-parsing、nlp、malawi、sql、qlora、few-shot
数据规模：小于1K样本

数据集简介

这是首个针对奇契瓦语的结构化文本到SQL基准数据集。奇契瓦语是一种低资源的班图语，在马拉维及邻近地区有超过1200万人使用。该数据集包含400个手动整理的自然语言-SQL对，涵盖奇契瓦语（Nyanja）和英语，并基于一个统一的、覆盖马拉维五个真实世界领域的关系型SQLite数据库。

数据库模式

SQLite数据库 (database/chichewa_text2sql.db) 包含五个表：

production：按地区和季节划分的农作物产量
population：包含地理和人口细分的人口普查数据
mse_daily：马拉维证券交易所每日交易数据
commodity_prices：各市场的商品价格数据
food_insecurity：按地区划分的粮食不安全指标

数据集结构

文件列表

data/all.json：完整数据集（400个示例）
data/train.json：训练集
data/dev.json：开发/验证集
data/test.json：测试集
data/human_translations.csv：人工验证的翻译
data/split_verification.json：划分完整性验证
database/chichewa_text2sql.db：SQLite数据库
database_tables_csv/：每个表的原始CSV文件

数据字段

每个示例包含以下字段：

id：示例标识符
question_en：英语问题
question_ny：奇契瓦语问题
sql_statement：真实SQL语句
sql_result：SQL执行结果
difficulty_level：难度等级
table：相关表

难度等级

easy：单表，简单的SELECT / WHERE / ORDER BY
medium：聚合、GROUP BY、LIMIT
hard：多条件查询、子查询、JOIN

数据划分

训练集：约280个样本
开发集：约60个样本
测试集：约60个样本
总计：400个样本

使用示例

python import json with open("data/train.json") as f: train = json.load(f) print(train[0]["question_ny"]) # 奇契瓦语问题 print(train[0]["question_en"]) # 英语问题 print(train[0]["sql_statement"]) # 真实SQL语句

引用信息

如果使用此数据集，请引用： bibtex @dataset{eze2026chichewa, author = {Eze, John Emeka and Matekenya, Dunstan and Matthewe, Evance}, title = {Chichewa Text-to-SQL: A Low-Resource Benchmark for Semantic Parsing in Chichewa}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/johneze/chichewa-text2sql} }

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量数据集是推动语义解析技术发展的关键。Chichewa Text-to-SQL数据集作为首个针对奇切瓦语的结构化文本到SQL基准，通过人工精心编制了400个自然语言与SQL查询对，涵盖农业、人口、金融等五个真实领域。这些数据均基于统一的SQLite关系型数据库，确保了查询的语义一致性与可执行性，为低资源语言场景下的模型评估提供了可靠基础。

特点

该数据集的核心特点在于其双语并行结构，每个示例均包含奇切瓦语和英语两种自然语言表述，并标注了对应的SQL语句及执行结果。数据按查询复杂度分为简单、中等与困难三个等级，覆盖从单表查询到多表连接及子查询等多样化场景。这种设计不仅支持跨语言语义解析研究，还为低资源语言环境下的零样本、少样本及参数高效微调方法提供了系统化评估框架。

使用方法

研究人员可通过加载JSON格式的数据文件直接访问训练集、验证集和测试集，每个数据条目包含双语问题、标准SQL语句及其执行结果。数据集配套的SQLite数据库允许用户执行查询验证，并可通过CSV文件查看原始表结构。该资源适用于探索跨语言迁移学习、少样本提示工程以及低资源语义解析模型的性能优化，为奇切瓦语自然语言处理研究提供了实用工具。

背景与挑战

背景概述

在自然语言处理领域，语义解析技术旨在将人类自然语言转化为机器可执行的结构化查询，而Text-to-SQL任务作为其重要分支，长期聚焦于英语等高资源语言。针对低资源语言的研究相对匮乏，尤其是像奇契瓦语（Chichewa）这样拥有超过1200万使用者的班图语。2026年，研究人员John Emeka Eze、Dunstan Matekenya和Evance Matthewe共同创建了首个奇契瓦语Text-to-SQL基准数据集，旨在探索大型语言模型在低资源语义解析中的适应性。该数据集包含400个精心构建的自然语言-SQL对，覆盖马拉维农业、人口、金融等五个现实领域，为促进语言技术公平性与包容性提供了关键资源。

当前挑战

该数据集所针对的Text-to-SQL任务在低资源语言环境中面临显著挑战：奇契瓦语缺乏大规模标注数据，导致模型在零样本设置下执行准确率几乎为零，难以捕捉语言特有的语法结构与语义关系。在构建过程中，研究人员需克服双语对齐的复杂性，确保奇契瓦语与英语问题在语义上严格等价，同时需手动设计涵盖不同难度级别的SQL查询，以反映真实场景中的多样化需求。此外，构建跨领域数据库时，需整合马拉维本土的多源异构数据，并保持数据的一致性与可验证性，这对低资源环境下的数据收集与标注提出了较高要求。

常用场景

经典使用场景

在低资源语言自然语言处理领域，Chichewa Text-to-SQL数据集为语义解析任务提供了关键基准。该数据集最经典的使用场景是评估大型语言模型在零样本、少样本及参数高效微调（如QLoRA）等范式下，将Chichewa自然语言查询转换为结构化SQL语句的能力。研究者通过该数据集系统探究模型在农业产量、人口普查、股票交易等五个真实领域中的跨语言迁移性能，尤其关注从英语到Chichewa的知识转移效果，为低资源语言语义解析建立了可复现的实验框架。

解决学术问题

该数据集有效解决了低资源语言语义解析中数据稀缺与评估标准缺失的核心学术问题。通过提供首个针对Chichewa语言的文本到SQL标注数据，它使得系统研究跨语言迁移、少样本学习及检索增强生成等技术成为可能。其意义在于突破了传统研究对高资源语言的依赖，为Bantu语系乃至其他低资源语言的语义解析任务提供了可扩展的范式，推动了自然语言处理技术在语言多样性方面的公平性发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在低资源语言语义解析的方法创新上。例如，研究团队通过检索增强的少样本学习将Chichewa的SQL生成准确率从零提升至41.7%，验证了跨语言检索在数据稀缺场景的有效性。后续工作可能拓展至多模态数据查询、方言适应性微调，以及结合QLoRA等参数高效技术构建轻量级部署方案，为类似低资源语言任务提供可迁移的技术蓝图。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集