评估大语言模型在HTML文件中关键词提取能力的测试数据集
收藏贵州省数据知识产权登记平台2025-07-09 更新2025-07-10 收录
下载链接:
https://gzdipp.gzsis.cn:12020/noticeDetail?id=714&type=1
下载链接
链接失效反馈官方服务:
资源简介:
1、数据采集:提取指定行业相关的公开网页信息,存为HTML文件;
2、数据处理:1)清除HTML文件中的代码信息(如“css、JavaScript代码”)后,保留文字内容;2)从文字内容中提取与业务相关的关键信息(如主题、发布时间、地址、期限、审查结果等);3)对关键信息进行表达方式分类,表达方式分类包括:文本、表格;4)根据不同的表达方式分类定义JSON包,构成在HTML文件中关键词提取能力的测试数据集;
3、数据应用:将测试数据集包输入LLM模型获取HTML文件主要内容,判断LLM模型的关键词提取能力的准确度和提取速度。
提供机构:
贵阳高新数通信息有限公司
创建时间:
2025-07-04
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含400条数据的测试数据集,用于评估大语言模型在HTML文件中提取关键词的准确性与速度。数据来源于指定行业的公开网页信息,经过处理后保留文字内容并提取关键信息,适用于需要精准快速获取关键业务信息的行业场景。
以上内容由遇见数据集搜集并总结生成



