YnJhY2lzMjAyNnRleHQyc3Fs/environmental_registry_test_set
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/YnJhY2lzMjAyNnRleHQyc3Fs/environmental_registry_test_set
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个匿名的基准测试集,用于评估基于真实PostgreSQL/PostGIS环境注册数据库的葡萄牙语文本到SQL的代理性能。数据集包含180行数据,分为测试集,其中包含90个SQL问题、45个澄清问题和45个不可回答问题。SQL问题的难度分为20个简单、30个中等、30个困难和10个专家级别。数据集使用巴西葡萄牙语,数据库类型为PostgreSQL/PostGIS环境注册数据库,主要模式包含19个表,涵盖农村财产、市政区、土著土地、保护单位、环境禁运、定居点、quilombola领土、联邦公共土地、森林砍伐事件和空间重叠事实等。数据集还包含了评估设计、报告结果和许可证信息。
This dataset is the anonymized primary benchmark used for evaluating agentic Portuguese Text-to-SQL over a real PostgreSQL/PostGIS environmental-registry database. The dataset contains 180 rows, split into a test set with 90 SQL questions, 45 clarification questions, and 45 unanswerable questions. The SQL questions are divided into 20 easy, 30 medium, 30 hard, and 10 expert levels. The dataset is in Brazilian Portuguese, and the database type is a PostgreSQL/PostGIS environmental-registry database, with a primary schema containing 19 tables covering rural properties, municipalities, Indigenous Lands, conservation units, environmental embargoes, settlements, quilombola territories, federal public lands, deforestation events, and spatial-overlap facts. The dataset also includes evaluation design, reported results, and license information.
提供机构:
YnJhY2lzMjAyNnRleHQyc3Fs
搜集汇总
数据集介绍

构建方式
该数据集是用于评估葡萄牙语Text-to-SQL智能体在真实PostgreSQL/PostGIS环境登记数据库上表现的匿名基准测试集。虽然底层生产数据库未公开,但为了确保评估的透明性与可复现性,数据集的元数据与标签信息均被完整提供。数据集共包含180条记录,分为三个类别:90条需要生成SQL语句的问题、45条需要澄清的问题以及45条不可回答的问题。SQL问题按难度划分为简单(20条)、中等(30条)、困难(30条)和专家级(10条)四个层级。
使用方法
该数据集可直接用于评估和微调葡萄牙语Text-to-SQL模型。用户通过加载HuggingFace上的`environmental_registry_test_set`数据集,可获取包含自然语言问题(`pergunta`)、标准SQL查询(`sql`)、难度标签(`dificuldade`)及多个语义约束字段(如`order_matters`、`num_column_matters`、`num_row_matters`)的完整标注。在评估时,需对模型生成的SQL执行并与标准结果进行宽松或严格的执行准确率对比。此外,该数据集还支持Pass@K指标计算,适用于需要多次采样以提高覆盖率的场景。
背景与挑战
背景概述
环境登记测试集是专为评估葡萄牙语文本到SQL转换能力而设计的基准数据集,创建于2024年,由匿名机构的研究人员发布。该数据集聚焦于巴西地理空间环境登记数据库,涵盖了农村地产、自然保护区、土著领地、环境禁令等19张表的复杂模式,旨在推动多模态地理空间推理与自然语言查询的结合。核心研究问题在于构建能处理葡萄牙语语义歧义、空间谓词推理及不可回答问题的智能代理系统,对自然语言处理、地理信息系统交叉领域具有重要影响力,为巴西环境监管数字化提供了评估范式。
当前挑战
该数据集面临的双重挑战源于领域问题与构建过程。领域问题层面,需解决葡萄牙语环境中空间谓词(如“与某区域重叠”)的精确SQL映射、19表关联的复杂联接与时间过滤,以及地理空间坐标的歧义消解。构建过程中,研究人员需从匿名生产数据库提炼180条标注样本,平衡SQL可回答、需澄清与不可回答三类问题各45条,并设计难度梯度(10条专家级)与执行匹配评估指标,避免因SQL字符串非精确匹配导致的误判。
常用场景
经典使用场景
该数据集专为评估葡萄牙语文本到SQL的智能体系统而设计,其核心应用场景在于测试模型在真实环境登记数据库上的查询生成能力。数据集中包含了180条精心标注的样本,涵盖SQL生成、歧义检测、不可回答识别及地理空间推理等多元任务,尤其强调对PostgreSQL/PostGIS数据库的复杂查询操作,如时空过滤、多表连接与聚合运算,是衡量自然语言接口在环境治理领域实用性的权威基准。
解决学术问题
该数据集直面自然语言处理与数据库交叉领域的核心挑战,即如何构建能处理真实世界复杂查询的健壮文本到SQL系统。它解决了现有基准中普遍存在的简化问题,通过引入模糊问题、不可回答场景和地理空间推理需求,迫使模型超越简单的模式匹配,发展出对领域知识、时空逻辑和数据库约束的真正理解,从而推动了学术研究向更具实用价值的系统演进。
实际应用
在实际应用中,该数据集模拟了环境监管机构日常面对的查询需求,例如检索特定保护区的重叠面积、查询过去十年内的森林砍伐事件或核实农村不动产的登记状态。通过评估AI助手生成准确SQL语句、识别查询歧义并决定是否请求澄清的能力,它直接服务于环境大数据平台、智能政务系统及地理信息分析工具的自动化升级,显著降低非技术用户访问复杂数据库的门槛。
数据集最近研究
最新研究方向
该数据集聚焦于葡萄牙语文本到SQL的智能体系统评估,特别是针对巴西环境登记数据库的复杂地理空间查询。前沿研究方向涵盖SQL生成、歧义检测与不可回答性识别,并结合PostGIS空间推理、时间过滤及领域特定值推理。该基准通过松弛执行精度指标,推动小型语言模型在真实环境数据库上的实用化部署,其Finetuned模型Pass@5达91.7%的整体准确率,为资源受限场景下的地理空间数据对话系统提供了可复现的评估范式。
以上内容由遇见数据集搜集并总结生成



