five

THUCTC: 一个高效的中文文本分类工具包

收藏
阿里云天池2026-06-08 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/94520
下载链接
链接失效反馈
官方服务:
资源简介:
THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。

THUCTC (THU Chinese Text Classification) is a Chinese text classification toolkit launched by the Natural Language Processing Laboratory of Tsinghua University, which can automatically and efficiently implement the training, evaluation and classification functions of user-customized text classification corpora. Text classification generally consists of three steps: feature selection, feature dimensionality reduction and classification model learning. How to select appropriate text features and perform dimensionality reduction is a challenging issue in Chinese text classification.
提供机构:
阿里云天池
创建时间:
2021-03-15
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
THUCTC是清华大学开发的中文文本分类工具包,支持自定义语料训练与评测,采用bigram特征和高效分类算法,适用于开放领域长文本分类。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务