five

关键词提取数据集

收藏
国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edc996bb16e07753c35c77&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个文本数据集,用以训练从中文语句中提取关键词的机器学习网络模型。数据存储在bio格式的文件中。采用字符串模式匹配,对关键词进行标注,每一个中文文字对应一个标签,用以判断是否属于关键词中的中文汉字,使用者可以自行划分训练集、验证集、测试集。数据集文件大小81.9 MB。

This is a text dataset intended for training machine learning models for keyword extraction from Chinese sentences. Data is stored in files in BIO format. Keyword annotation is conducted via string pattern matching, where each individual Chinese character is assigned a label to indicate whether it is part of the target keywords. Users may freely split the dataset into training, validation, and test sets as needed. The total file size of this dataset is 81.9 MB.
提供机构:
成都索贝数码科技股份有限公司
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于训练中文关键词提取机器学习模型的文本数据集,采用bio格式存储,通过字符串模式匹配标注关键词,文件总大小为81.9MB。数据集适用于计算机应用和计算机工程领域的研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务