DataCNPJ
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/NESPED-GEN/DataCNPJ
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含187个测试样本,主要用于双语(英语和葡萄牙语)数据库查询任务。每个样本包含唯一的问题ID、英文和葡萄牙语的问题文本、对应的数据库查询语句(query_cnpj)和模式链接信息(schema_linking),以及标注是否为合成数据(synthetic)和问题难度等级(hardness)。数据集采用单一测试集划分,总大小为219KB,包含10个结构化字段,特别适用于跨语言数据库查询系统的开发和评估。
提供机构:
NESPED - Generative AI Reaserch
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
DataCNPJ数据集专为跨语言文本到SQL任务而设计,聚焦于巴西公司注册号(CNPJ)查询领域。该数据集通过将英文自然语言问题及对应的SQL查询、模式链接信息,翻译为葡萄牙语版本,构建了双语平行语料。每条样本包含问题标识符、双语问题、双语查询语句、双语模式链接字段,以及合成标注与难度等级标签。数据集共收录187条测试样本,覆盖从简单到复杂的多粒度查询场景。
使用方法
使用DataCNPJ时,研究人员可直接加载HuggingFace上的默认配置,获取包含187个测试样本的数据拆分。每条样本中的question_EN与question_PT可分别用于源语言和目标语言的输入测试,对应的query_cnpjEN与query_cnpjPT作为标准答案用于评估模型输出的精准度。schema_linking字段有助于分析模型在模式链接方面的表现。数据集适用于微调、零样本评估及跨语言迁移学习的实验设置。
背景与挑战
背景概述
DataCNPJ数据集构建于巴西国家法人登记号(CNPJ)领域,聚焦于自然语言接口下的结构化查询生成任务。该数据集由研究机构联合开发,旨在弥合自然语言提问与复杂CNPJ数据库查询之间的语义鸿沟。通过嵌入双语(英语与葡萄牙语)查询对及模式链接信息,DataCNPJ为跨语言文本到SQL研究提供了基准资源,尤其针对巴西商业实体查询场景。其影响力体现在推动低资源语言下的语义解析技术发展,并为电子商务、税务分析等应用提供标准化评估框架。
当前挑战
该数据集面临的挑战包括:1)领域特异性问题——CNPJ数据库包含层级化企业分类与动态税务编码,自然语言查询需精准映射至高度结构化的SQL模式,这对跨语言语义解析模型构成显著障碍;2)构建过程困难——由于CNPJ数据涉及敏感商业信息,开源数据库的可用性受限,导致合成查询与真实查询的分布偏差难以消除。此外,双语注释的一致性维护及硬查询样本的标注复杂度进一步加剧了数据集规模扩展与质量保障之间的权衡。
常用场景
经典使用场景
DataCNPJ数据集专为葡萄牙语和英语双语的Text-to-SQL任务而设计,其核心应用场景在于将自然语言问题精准转换为结构化的SQL查询语句。该数据集聚焦于巴西公司注册信息(CNPJ)领域,涵盖了187个精心标注的测试样本,每个样本均包含双语提问、对应的SQL查询以及模式链接信息。研究者可借此评估和提升模型在多语言环境下的语义解析能力,尤其在处理特定领域术语(如巴西税号规则)时的表现。该场景对跨语言数据库查询系统的研发具有奠基性价值。
解决学术问题
该数据集有效缓解了自然语言处理领域中跨语言语义解析的学术瓶颈,特别是针对低资源语言(如葡萄牙语)在结构化查询生成上的数据匮乏问题。通过提供双语对齐的查询对(question-SQL),DataCNPJ支持研究者探究模式链接(schema linking)在不同语言表达下的泛化能力,以及合成数据(synthetic)与真实标注样本对模型鲁棒性的影响。其设计还助力解决SQL查询的难度分级评估难题,为多语言Text-to-SQL的基准测试提供了标准化平台,推动了语义解析技术在高复杂性、多术语场景下的理论突破。
实际应用
在实际应用中,DataCNPJ数据集可直接赋能巴西及葡语国家的企业信息管理自动化系统。例如,财务分析师可通过自然语言询问公司税务状态、注册地址或股东结构,系统自动生成SQL查询从CNPJ数据库中提取结果,大幅降低数据检索门槛。此外,该数据集还可用于开发多语言智能客服机器人,帮助用户通过聊天界面实时获取公司合规信息。跨语言能力使得国际投资者无需精通葡萄牙语即可查询巴西公司数据,从而促进跨国商业决策的智能化与高效化。
数据集最近研究
最新研究方向
DataCNPJ数据集专门针对巴西国家法人登记号(CNPJ)体系设计,融合了自然语言到结构化查询的跨语言语义解析任务。当前前沿研究聚焦于通过该数据集探索葡萄牙语与英语双模态下的文本到SQL生成能力,尤其是在涉及企业注册信息、税务合规与复杂商业实体关联查询的场景中。研究者正利用其双语标注与模式链接信息,结合大语言模型进行少样本学习和跨语言迁移的突破,以提升对新兴经济体特有数据结构的理解。该数据集的发布填补了南美商业智能领域基准测试的空白,对于跨国企业数据分析、自动化审计系统及多语言政务服务平台具有重要推动意义。
以上内容由遇见数据集搜集并总结生成



