DiGroup

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/LaimOr/DiGroup

下载链接

链接失效反馈

官方服务：

资源简介：

DiGroup增强数据集是一个基于DiGroup公司69个Excel文件深度分析而成的扩展数据集，用于AI模型的再训练。数据集包含23,778个示例，分为训练集和验证集，涵盖了生产分析、项目管理、工作时间记录、定价和业务分析等多个业务领域。数据集包含文本和数值分析，以及丰富的元数据信息，适用于多种机器学习框架和API。

创建时间：

2025-09-08

原始信息汇总

DiGroup Enhanced Dataset 数据集概述

基本信息

创建日期：2025年9月6日
数据来源：对DiGroup公司的69个Excel文件进行深度分析
创建目的：用于AI模型的业务数据微调训练

数据集规模

总样本数量：23,778个
训练集：21,400个样本（90%）
验证集：2,378个样本（10%）
文件大小：约35MB JSON + 约29MB JSONL训练集 + 约3.2MB JSONL验证集

文件结构

DiGroup_Enhanced_Dataset_Final/ ├── README.md ├── advanced_training_dataset_20250906_110407.json ├── advanced_training_20250906_110407.jsonl └── advanced_validation_20250906_110407.jsonl

业务领域分布

生产分析（PA）

样本数量：17,544个（73.8%）
内容：生产行为分析、产品质量控制、生产报告、生产时间序列

项目活动

样本数量：2,899个（12.2%）
内容：项目管理、资源规划、项目质量、执行指标

工作时间记录和考勤

样本数量：2,527个（10.6%）
内容：时间记录表、车间工时、人员规划、劳动生产率

价格表和定价

样本数量：498个（2.1%）
内容：定价结构、供应商分析、价格动态、商品分类

一般业务分析

样本数量：269个（1.1%）
内容：总体分析、汇总报告、企业指标

费率规划

样本数量：25个（0.1%）
内容：费率表、费率规划

金属加工

样本数量：16个（0.1%）
内容：金属加工特定数据

知识提取类型

文本分析

样本数量：22,705个（95.5%）
分析内容：日期、电子邮件、电话号码、通用文本分类
数据模式：项目编号、时间戳、联系信息
统计分析：文本长度、独特性、信息密度
语义理解：文档类型、数据结构

数值分析

样本数量：1,073个（4.5%）
分析内容：平均值、中位数、标准差
业务解释：价格指标、数量、时间数据
异常检测：异常值识别
趋势分析：指标动态

关键特性

分析公式数量：935,686个
覆盖工作表：69个文件中的211个工作表
业务类别：7个
错误处理：所有文件成功处理

数据格式

JSON：完整结构化数据，包含元数据和分组
JSONL：每行一个样本，可直接用于训练流水线

样本结构

json { "messages": [ {"role": "user", "content": "问题"}, {"role": "assistant", "content": "详细回答"} ], "metadata": { "source": "文件名.xlsx", "type": "分析类型", "context": "业务上下文", "additional_metrics": "值" } }

兼容性

OpenAI Fine-tuning API
Hugging Face Transformers
Anthropic Claude Fine-tuning
自定义训练脚本

创建流程

Excel文件深度分析
分类和分类
公式和数据解释
生成问答对
验证和质量控制

预期训练结果

分析Excel文件并解释内容
理解公式的业务逻辑
从数据中提取见解并提供业务解释
处理DiGroup特定业务：生产、项目、时间记录
分类数据类型并确定结构
回答关于企业文档内容的问题

搜集汇总

数据集介绍

构建方式

在商业数据分析领域，DiGroup数据集的构建体现了系统化的工程方法。该数据集源自对69个企业Excel文件的深度解析，通过多阶段处理流程实现知识提取：首先进行电子表格的结构化分析，随后根据业务场景进行智能分类，进而对公式与数值数据进行语义化阐释，最终生成高质量的问答对。整个过程涵盖质量验证机制，确保从原始文件到训练样本的转换保持数据完整性与业务逻辑一致性。

特点

DiGroup数据集展现出鲜明的专业领域特征，其内容覆盖生产分析、项目管理、工时核算等七大商业场景，其中生产分析占比逾七成。数据集包含文本分析（95.5%）与数值分析（4.5%）双重维度，深度融合了93万余条公式解析与业务语义标注。每个样本均配备丰富的元数据，包括数据来源、分析类型、业务上下文及复杂度指标，为模型提供多层次学习信号。

使用方法

该数据集采用兼容主流训练框架的双格式设计：结构化JSON文件保留完整元信息体系，JSONL格式则适配OpenAI等微调接口。使用者可根据需要选择完整数据集进行定制化训练，或直接使用预分割的训练验证集开展模型微调。典型应用场景包括Excel公式解析、业务指标解读、生产数据洞察等任务，通过端到端的对话格式训练，使模型获得企业级数据分析与解释能力。

背景与挑战

背景概述

DiGroup数据集由DiGroup公司于2025年9月6日创建，旨在为企业级人工智能模型提供高质量的微调数据资源。该数据集基于对69个企业Excel文件的深度解析，涵盖了生产分析、项目管理、工时核算等七大业务领域，共包含23,778个结构化示例。其核心研究问题聚焦于提升AI模型对企业表格数据的语义理解能力，特别是对Excel公式逻辑解析和业务指标解释的精准度，为工业4.0背景下的企业智能化转型提供了重要的数据支撑。

当前挑战

该数据集主要解决企业表格数据智能解析的领域挑战，包括复杂Excel公式的语义解释、多业务场景下的数据模式识别以及跨领域知识迁移等关键技术难题。在构建过程中面临原始数据异构性处理、业务知识标注一致性保障以及大规模公式解析的准确性验证等工程挑战，需通过多层校验机制确保数据质量与业务逻辑的精确对应。

常用场景

经典使用场景

在工业数据分析领域，DiGroup数据集为人工智能模型提供了丰富的企业级Excel文档解析场景。该数据集通过23,778个结构化示例，覆盖了生产制造分析、项目管理和工时核算等核心业务场景，使模型能够深入理解企业数据的内在逻辑。特别在公式解析方面，数据集包含93万余条经过语义标注的Excel公式，为模型学习商业计算逻辑提供了优质训练素材。

实际应用

在实际应用层面，DiGroup数据集支撑了企业智能分析系统的开发与优化。基于该数据集训练的模型能够自动解析生产报表、生成业务洞察、识别数据异常，大幅提升企业决策效率。在制造业数字化场景中，这类系统可以实时监控生产指标、分析成本结构、预测资源需求，为企业运营管理提供智能化支持，显著降低人工分析成本并提高数据处理准确性。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究工作。在工业人工智能领域，研究者基于其开发了专门的表格理解模型和商业公式解析算法。这些工作不仅推进了企业文档智能处理技术的发展，还促进了多模态学习在工业场景的应用。相关研究成果已被应用于智能制造、财务分析和运营优化等多个垂直领域，形成了完整的技术生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集