安保领域投标文件内容生成AI训练数据

Name: 安保领域投标文件内容生成AI训练数据
Creator: 浙江杭泰安保服务有限公司
Published: 2025-03-26 09:14:22
License: 暂无描述

浙江省数据知识产权登记平台2025-03-26 更新2025-03-27 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/119837

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集的核心价值在于其为开发高效、精准的安保领域投标文件AI生成系统提供了全面且准确的信息基础。通过对历史投标文件和采购需求的收集、文本提取、清洗、标注、特征提取、特征工程、模型训练和评估等过程，本数据集被加工成为高质量的训练用数据集，不仅涵盖了安保领域的广泛项目需求，还包含了丰富的技术方案和商务条款，使得AI模型在接受训练时能够深入学习并掌握投标文件内容的复杂性。在使用本数据集进行训练后，AI模型能够更加准确地识别安保领域项目的具体需求，进而在实际应用中生成与招标需求高度匹配的投标文件内容，提高投标效率和竞争力。1.数据收集：收集公司安保领域历史投标文件及其对应的采购需求文件（doc、docx和pdf格式），记录收集时间和项目名称。 2.文本提取、统一格式和清洗：用Aspose.Words工具（针对doc和docx格式）和PyMuPDF工具（针对pdf格式）对文件进行解析，提取文本内容。将提取的文本内容转换为统一的txt格式。对文本进行清洗，去除无用的符号、空白行等。 3.文本标注和特征提取：在KernAI Refinery工具辅助下，结合人工对文本进行标注，识别和标记关键信息。使用BERT算法提取文本中的关键词和语义信息，为模型训练提供重要特征。 4.特征工程：通过递归特征消除（RFE）选择最有影响的特征。通过组合现有的特征来创建新的特征，如组合投标文件中的不同参数。对特征进行必要的数学转换，以提高模型性能。 5.数据集划分：将特征工程处理后的数据集划分为训练集、验证集和测试集。 6.模型训练：选择开源的ChatGLM-6B作为文本生成模型，使用训练集对模型进行微调训练，记录训练周期，并在验证集上进行调优。 7.模型评估与优化：使用测试集评估模型的性能（准确率、召回率），并记录评估日期。

提供机构：

浙江杭泰安保服务有限公司

创建时间：

2025-02-05

搜集汇总

数据集介绍