DEEPCAD-Text2Json-EnVi

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/TruongSinhAI/DEEPCAD-Text2Json-EnVi

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含用户ID、输入和输出字符串的数据集，分为英文和越南文两种语言版本。数据集包括训练集、验证集、测试集以及两个各包含1000个样本的子集。

创建时间：

2025-05-10

原始信息汇总

数据集概述

基本信息

数据集名称: TruongSinhAI/DEEPCAD-Text2Json-EnVi
下载大小: 289.89 MB
数据集大小: 1.15 GB

数据集结构

特征:
- uid: 字符串类型
- input: 字符串类型
- output: 字符串类型

数据划分

训练集:
- train_en: 155,783 条样本，477.87 MB
- train_vi: 155,783 条样本，553.13 MB
验证集:
- val_en: 8,814 条样本，27.18 MB
- val_vi: 8,814 条样本，30.64 MB
测试集:
- test_en: 7,924 条样本，24.86 MB
- test_vi: 7,924 条样本，28.07 MB
子集:
- subset1000_en: 1,000 条样本，3.07 MB
- subset1000_vi: 1,000 条样本，3.56 MB

数据文件

默认配置:
- 所有数据划分的文件路径均以 data/ 开头，后接对应的划分名称和通配符（如 train_en-*）。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨语言数据转换任务对数据集构建提出了更高要求。DEEPCAD-Text2Json-EnVi数据集采用双语平行语料构建策略，通过专业标注流程将英文和越南语文本结构化转换为JSON格式。该数据集包含15万余条训练样本，并细分为训练集、验证集和测试集，同时提供包含1000条样本的子集用于快速验证，确保数据分布的多样性和代表性。

特点

该数据集最显著的特点是实现了英越双语文本到结构化数据的精准映射，每个样本包含唯一标识符、原始文本输入和标准JSON输出。数据规模均衡，英语和越南语版本具有完全对应的样本数量，为跨语言研究提供了理想基准。数据划分科学合理，验证集和测试集占比约5%，既满足模型评估需求又最大限度保留了训练数据量。

使用方法

研究者可通过HuggingFace平台直接加载数据集各分片，利用'train_en'和'train_vi'进行双语联合训练或单语言专项训练。验证集和测试集分别用于超参数调优和最终性能评估，而'subset1000'子集适合快速原型验证。数据加载后，输入文本字段可用于自然语言理解任务，输出JSON字段则支持结构化预测模型的训练与评估。

背景与挑战

背景概述

DEEPCAD-Text2Json-EnVi数据集是近年来在自然语言处理领域兴起的一项重要资源，专注于文本到结构化数据的转换任务，特别是针对英语和越南语的双语处理。该数据集由专业研究团队构建，旨在解决跨语言文本解析与结构化数据生成的核心问题，为机器翻译、信息抽取和语义理解等任务提供了重要支持。其构建体现了多语言处理技术在全球化背景下的迫切需求，推动了相关领域的技术进步与应用拓展。

当前挑战

DEEPCAD-Text2Json-EnVi数据集面临的主要挑战包括两方面：在领域问题层面，文本到结构化数据的转换需要克服自然语言的歧义性和多样性，尤其在跨语言场景下，英语和越南语之间的语法和语义差异增加了转换的复杂性；在构建过程中，数据标注的准确性和一致性是关键挑战，需要确保不同语言版本的数据在结构和语义上保持对齐，这对标注人员的专业素养和流程设计提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，DEEPCAD-Text2Json-EnVi数据集为研究文本到结构化数据的转换提供了重要支持。该数据集包含英语和越南语的双语文本输入及其对应的JSON格式输出，特别适用于训练和评估跨语言的文本解析模型。研究人员可以利用这一数据集探索不同语言背景下文本到结构化数据的转换性能，从而推动多语言自然语言处理技术的发展。

衍生相关工作

基于DEEPCAD-Text2Json-EnVi数据集，研究者们已经开展了一系列经典工作。例如，有研究利用该数据集开发了跨语言的文本到JSON转换模型，显著提升了多语言环境下的解析性能。此外，该数据集还被用于探索语言模型在低资源语言中的迁移学习能力，为多语言自然语言处理技术的发展提供了新的思路。

数据集最近研究