THUCNews

github2023-01-04 更新2024-05-31 收录

下载链接：

https://github.com/a-strong-python/-12-

下载链接

链接失效反馈

官方服务：

资源简介：

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

THUCNews is generated by filtering and curating historical data from Sina News RSS subscription channels between 2005 and 2011, comprising 740,000 news documents (2.19 GB) in UTF-8 plain text format. The dataset for this competition reorganizes and reclassifies 14 candidate categories based on the original Sina News classification taxonomy, including: Finance, Lottery, Real Estate, Stocks, Home Furnishing, Education, Technology, Society, Fashion, Politics, Sports, Horoscope, Games, and Entertainment. A total of 832,471 training samples are provided.

创建时间：

2023-01-04

原始信息汇总

常规赛：中文新闻文本标题分类

1.1 赛题简介

本次比赛为新闻标题文本分类，选手需使用飞桨框架和PaddleNLP训练一个新闻分类模型，对测试集的新闻标题文本进行分类。评价指标为Accuracy。

1.2 数据介绍

数据集THUCNews包含74万篇新闻文档，整合划分出14个分类类别。提供训练数据共832471条，格式为原文标题+ +标签。

1.3 模型思路

在PaddleNLP框架下，通过微调9种预训练模型来训练新闻标题14分类模型，并使用集成学习融合不同模型的处理结果。运行时需选择至尊版的GPU环境。

3.2 定义预训练模型

roberta-wwm-ext-large
nezha-large-wwm-chinese
skep_ernie_1.0_large_ch
bert-wwm-ext-chinese
macbert-large-chinese
huhuiwen/mengzi-bert-base
junnyu/hfl-chinese-electra-180g-base-discriminator

3.3 数据读取和处理

定义数据集加载函数，处理数据为模型可接受的格式，设置批处理大小和文本序列最大长度。

3.4 设置Fine-Tune优化策略

采用Focal Loss计算损失函数，并使用WarmUp策略避免模型不稳定。

搜集汇总

数据集介绍

构建方式

THUCNews数据集是通过筛选和过滤新浪新闻RSS订阅频道2005年至2011年间的历史数据构建而成，涵盖了74万篇新闻文档，总大小为2.19 GB。该数据集以UTF-8纯文本格式存储，并根据原始新浪新闻分类体系重新整合，划分为14个类别。训练集和验证集的格式为‘原文标题+标签’，而测试集仅包含原文标题。数据集的构建过程确保了新闻文本的多样性和广泛性，为文本分类任务提供了丰富的语料资源。

使用方法

使用THUCNews数据集时，首先需将数据集划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于模型的调优，测试集用于最终的模型评估。数据集的格式为‘原文标题+标签’，用户可通过读取文件并解析文本与标签进行处理。在模型训练过程中，可结合PaddleNLP框架，利用预训练模型进行微调，并通过集成学习方法提升分类效果。最终，模型可用于对新新闻标题进行自动分类，评估指标为分类准确率。

背景与挑战

背景概述

THUCNews数据集是由新浪新闻RSS订阅频道2005至2011年的历史数据筛选和过滤生成的，包含了74万篇新闻文档，涵盖了14个主要类别，如财经、体育、科技等。该数据集的创建旨在支持中文新闻文本分类的研究，特别是在短文本分类任务中，为模型训练提供了丰富的语料资源。THUCNews数据集的发布不仅为自然语言处理领域的研究者提供了宝贵的数据资源，还推动了中文文本分类技术的进步，尤其是在深度学习模型的应用方面。

当前挑战

THUCNews数据集在构建和应用过程中面临多个挑战。首先，数据集的类别分布不均衡，某些类别如科技和股票的样本数量远多于其他类别，这可能导致模型在训练时对少数类别的分类效果不佳。其次，短文本分类任务本身具有一定的难度，因为新闻标题通常信息密度高且语义复杂，模型需要具备较强的语义理解能力。此外，预训练模型在处理大规模数据时需要大量的计算资源，尤其是在GPU显存有限的情况下，如何优化模型训练过程也是一个重要的挑战。

常用场景

经典使用场景

THUCNews数据集的经典使用场景主要集中在新闻标题的自动分类任务上。通过该数据集，研究者和开发者可以训练和优化文本分类模型，特别是针对中文新闻标题的14个类别进行分类。这些类别涵盖了财经、体育、科技、娱乐等多个领域，使得模型能够广泛应用于新闻内容的自动化处理和信息检索。

解决学术问题

THUCNews数据集解决了中文文本分类领域中的多个学术研究问题，特别是在短文本分类和多类别分类方面。通过该数据集，研究者可以探索如何利用预训练模型（如BERT、RoBERTa等）进行微调，以提高分类准确性。此外，该数据集还为研究不平衡数据集处理、模型集成学习等提供了丰富的实验平台，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，THUCNews数据集的分类模型可以广泛应用于新闻推荐系统、舆情监控、内容过滤等领域。例如，新闻网站可以利用该模型自动对新发布的新闻标题进行分类，从而提高内容管理的效率。此外，政府和企业也可以通过该模型对社交媒体上的新闻内容进行实时监控和分类，以便快速响应公众舆论和市场动态。

数据集最近研究