评估大语言模型在HTML文件中关键词提取能力的测试数据集

Name: 评估大语言模型在HTML文件中关键词提取能力的测试数据集
Creator: 贵阳高新数通信息有限公司
Published: 2025-07-09 10:07:38
License: 暂无描述

贵州省数据知识产权登记平台2025-07-09 更新2025-07-10 收录

下载链接：

https://gzdipp.gzsis.cn:12020/noticeDetail?id=714&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

1、数据采集：提取指定行业相关的公开网页信息，存为HTML文件； 2、数据处理：1）清除HTML文件中的代码信息(如“css、JavaScript代码”)后，保留文字内容；2）从文字内容中提取与业务相关的关键信息（如主题、发布时间、地址、期限、审查结果等)；3）对关键信息进行表达方式分类，表达方式分类包括：文本、表格；4）根据不同的表达方式分类定义JSON包，构成在HTML文件中关键词提取能力的测试数据集； 3、数据应用：将测试数据集包输入LLM模型获取HTML文件主要内容，判断LLM模型的关键词提取能力的准确度和提取速度。

提供机构：

贵阳高新数通信息有限公司

创建时间：

2025-07-04

搜集汇总

数据集介绍