chichewa-text2sql
收藏Chichewa Text-to-SQL 数据集概述
基本信息
- 数据集名称:Chichewa Text-to-SQL
- 发布地址:https://huggingface.co/datasets/johneze/chichewa-text2sql
- 许可证:MIT
- 支持语言:奇契瓦语 (Nyanja)、英语 (English)
- 任务类别:表格问答
- 标签:text-to-sql、chichewa、low-resource-language、semantic-parsing、nlp、malawi、sql、qlora、few-shot
- 数据规模:小于1K样本
数据集简介
这是首个针对奇契瓦语的结构化文本到SQL基准数据集。奇契瓦语是一种低资源的班图语,在马拉维及邻近地区有超过1200万人使用。该数据集包含400个手动整理的自然语言-SQL对,涵盖奇契瓦语(Nyanja)和英语,并基于一个统一的、覆盖马拉维五个真实世界领域的关系型SQLite数据库。
数据库模式
SQLite数据库 (database/chichewa_text2sql.db) 包含五个表:
production:按地区和季节划分的农作物产量population:包含地理和人口细分的人口普查数据mse_daily:马拉维证券交易所每日交易数据commodity_prices:各市场的商品价格数据food_insecurity:按地区划分的粮食不安全指标
数据集结构
文件列表
data/all.json:完整数据集(400个示例)data/train.json:训练集data/dev.json:开发/验证集data/test.json:测试集data/human_translations.csv:人工验证的翻译data/split_verification.json:划分完整性验证database/chichewa_text2sql.db:SQLite数据库database_tables_csv/:每个表的原始CSV文件
数据字段
每个示例包含以下字段:
id:示例标识符question_en:英语问题question_ny:奇契瓦语问题sql_statement:真实SQL语句sql_result:SQL执行结果difficulty_level:难度等级table:相关表
难度等级
easy:单表,简单的SELECT / WHERE / ORDER BYmedium:聚合、GROUP BY、LIMIThard:多条件查询、子查询、JOIN
数据划分
- 训练集:约280个样本
- 开发集:约60个样本
- 测试集:约60个样本
- 总计:400个样本
使用示例
python import json with open("data/train.json") as f: train = json.load(f) print(train[0]["question_ny"]) # 奇契瓦语问题 print(train[0]["question_en"]) # 英语问题 print(train[0]["sql_statement"]) # 真实SQL语句
引用信息
如果使用此数据集,请引用: bibtex @dataset{eze2026chichewa, author = {Eze, John Emeka and Matekenya, Dunstan and Matthewe, Evance}, title = {Chichewa Text-to-SQL: A Low-Resource Benchmark for Semantic Parsing in Chichewa}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/johneze/chichewa-text2sql} }



