cnpj_schemaLinking
收藏Hugging Face2025-01-13 更新2025-01-16 收录
下载链接:
https://huggingface.co/datasets/NESPED-GEN/cnpj_schemaLinking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如问题、难度、生成、表和列等。表和列是一个结构体,包含多个序列类型的字段,如年龄范围、城市、公司等。数据集还包含一个测试集,其中有200个样本,文件大小为388532字节。
This dataset includes multiple features, such as questions, difficulty, generation, tables, columns, etc. Tables and columns form a structure that contains multiple sequence-type fields, such as age ranges, cities, companies and so on. The dataset also includes a test set with 200 samples, and its file size is 388,532 bytes.
提供机构:
NESPED - Generative AI Reaserch
创建时间:
2025-01-13
搜集汇总
数据集介绍

构建方式
cnpj_schemaLinking数据集的构建基于对巴西公司注册信息(CNPJ)的深度分析与结构化处理。数据集通过提取与公司相关的多维度信息,如公司规模、法律性质、注册状态等,构建了一个包含丰富字段的结构化数据框架。每个数据条目均经过严格的清洗与标准化处理,确保数据的准确性与一致性。数据集的生成过程还涉及对复杂查询问题的解析与映射,以支持后续的语义链接任务。
特点
cnpj_schemaLinking数据集的特点在于其高度结构化的数据组织形式与多层次的语义信息。数据集不仅包含公司基本信息,还涵盖了公司合伙人、税务状态、注册原因等细节字段,形成了一个多维度的信息网络。此外,数据集还提供了问题的难度分类(hardness)以及生成来源(generated),便于用户根据需求筛选数据。其独特的schemaReduzido字段进一步简化了数据模式,提升了数据处理的效率。
使用方法
cnpj_schemaLinking数据集适用于语义链接、信息检索以及自然语言处理任务。用户可通过解析数据集中的question字段,结合tables_and_columns字段提供的结构化信息,训练模型以理解复杂查询与数据模式之间的关联。数据集还支持对schemaReduzido字段的直接使用,以简化数据模式的解析过程。测试集(test split)提供了200个示例,可用于模型验证与性能评估。
背景与挑战
背景概述
cnpj_schemaLinking数据集是一个专注于模式链接(Schema Linking)任务的数据集,旨在解决自然语言查询与结构化数据库模式之间的映射问题。该数据集由巴西国家法人登记信息(CNPJ)数据库衍生而来,主要研究人员或机构未明确提及,但其创建时间可追溯至近年。该数据集的核心研究问题在于如何有效地将自然语言问题与数据库中的表和列进行关联,从而提升数据库查询的准确性和效率。这一研究对数据库管理系统、自然语言处理以及信息检索领域具有重要的影响力,尤其是在处理复杂查询和多表关联时,展现了其独特的价值。
当前挑战
cnpj_schemaLinking数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,模式链接任务本身具有较高的复杂性,尤其是在处理多表关联和嵌套查询时,如何准确地将自然语言问题映射到数据库模式中的表和列,仍然是一个亟待解决的难题。其次,在数据集构建过程中,由于CNPJ数据库的复杂性和多样性,如何确保数据的代表性和一致性,同时避免噪声数据的干扰,也是一个重要的挑战。此外,数据集中涉及的多语言支持和领域特定术语的处理,进一步增加了构建高质量数据集的难度。
常用场景
经典使用场景
cnpj_schemaLinking数据集主要用于自然语言处理领域中的模式链接任务,特别是在处理与公司注册信息相关的复杂查询时。该数据集通过提供详细的表格和列信息,帮助模型理解和链接用户查询中的实体与数据库中的具体字段。
解决学术问题
该数据集解决了在自然语言处理中如何准确地将自然语言查询映射到结构化数据库模式的问题。通过提供丰富的公司注册信息字段和复杂的查询示例,cnpj_schemaLinking为研究社区提供了一个测试和优化模式链接算法的平台,显著提升了模型在处理多表关联和复杂查询时的性能。
衍生相关工作
基于cnpj_schemaLinking数据集,研究社区已经开发了多种先进的模式链接算法和模型。这些工作不仅推动了自然语言处理技术的发展,还为其他领域如知识图谱构建、智能客服系统等提供了技术支持和参考。
以上内容由遇见数据集搜集并总结生成



