安保领域投标文件内容生成AI训练数据
收藏浙江省数据知识产权登记平台2025-03-26 更新2025-03-27 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/119837
下载链接
链接失效反馈官方服务:
资源简介:
本数据集的核心价值在于其为开发高效、精准的安保领域投标文件AI生成系统提供了全面且准确的信息基础。通过对历史投标文件和采购需求的收集、文本提取、清洗、标注、特征提取、特征工程、模型训练和评估等过程,本数据集被加工成为高质量的训练用数据集,不仅涵盖了安保领域的广泛项目需求,还包含了丰富的技术方案和商务条款,使得AI模型在接受训练时能够深入学习并掌握投标文件内容的复杂性。在使用本数据集进行训练后,AI模型能够更加准确地识别安保领域项目的具体需求,进而在实际应用中生成与招标需求高度匹配的投标文件内容,提高投标效率和竞争力。1.数据收集:收集公司安保领域历史投标文件及其对应的采购需求文件(doc、docx和pdf格式),记录收集时间和项目名称。
2.文本提取、统一格式和清洗:用Aspose.Words工具(针对doc和docx格式)和PyMuPDF工具(针对pdf格式)对文件进行解析,提取文本内容。将提取的文本内容转换为统一的txt格式。对文本进行清洗,去除无用的符号、空白行等。
3.文本标注和特征提取:在KernAI Refinery工具辅助下,结合人工对文本进行标注,识别和标记关键信息。使用BERT算法提取文本中的关键词和语义信息,为模型训练提供重要特征。
4.特征工程:通过递归特征消除(RFE)选择最有影响的特征。通过组合现有的特征来创建新的特征,如组合投标文件中的不同参数。对特征进行必要的数学转换,以提高模型性能。
5.数据集划分:将特征工程处理后的数据集划分为训练集、验证集和测试集。
6.模型训练:选择开源的ChatGLM-6B作为文本生成模型,使用训练集对模型进行微调训练,记录训练周期,并在验证集上进行调优。
7.模型评估与优化:使用测试集评估模型的性能(准确率、召回率),并记录评估日期。
提供机构:
浙江杭泰安保服务有限公司
创建时间:
2025-02-05
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是安保领域投标文件内容生成的AI训练数据,包含613条经过多步处理的记录,用于训练ChatGLM-6B模型,旨在提高投标文件生成的准确性和效率。
以上内容由遇见数据集搜集并总结生成



