THUCNews|新闻分类数据集|文本数据数据集

github2023-01-04 更新2024-05-31 收录

新闻分类

文本数据

下载链接：

https://github.com/a-strong-python/-12-

下载链接

链接失效反馈

资源简介：

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

创建时间：

2023-01-04

原始信息汇总

常规赛：中文新闻文本标题分类

1.1 赛题简介

本次比赛为新闻标题文本分类，选手需使用飞桨框架和PaddleNLP训练一个新闻分类模型，对测试集的新闻标题文本进行分类。评价指标为Accuracy。

1.2 数据介绍

数据集THUCNews包含74万篇新闻文档，整合划分出14个分类类别。提供训练数据共832471条，格式为原文标题+ +标签。

1.3 模型思路

在PaddleNLP框架下，通过微调9种预训练模型来训练新闻标题14分类模型，并使用集成学习融合不同模型的处理结果。运行时需选择至尊版的GPU环境。

3.2 定义预训练模型

roberta-wwm-ext-large
nezha-large-wwm-chinese
skep_ernie_1.0_large_ch
bert-wwm-ext-chinese
macbert-large-chinese
huhuiwen/mengzi-bert-base
junnyu/hfl-chinese-electra-180g-base-discriminator

3.3 数据读取和处理

定义数据集加载函数，处理数据为模型可接受的格式，设置批处理大小和文本序列最大长度。

3.4 设置Fine-Tune优化策略

采用Focal Loss计算损失函数，并使用WarmUp策略避免模型不稳定。

AI搜集汇总

数据集介绍

构建方式

THUCNews数据集是通过筛选和过滤新浪新闻RSS订阅频道2005年至2011年间的历史数据构建而成，涵盖了74万篇新闻文档，总大小为2.19 GB。该数据集以UTF-8纯文本格式存储，并根据原始新浪新闻分类体系重新整合，划分为14个类别。训练集和验证集的格式为‘原文标题+标签’，而测试集仅包含原文标题。数据集的构建过程确保了新闻文本的多样性和广泛性，为文本分类任务提供了丰富的语料资源。

使用方法

使用THUCNews数据集时，首先需将数据集划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于模型的调优，测试集用于最终的模型评估。数据集的格式为‘原文标题+标签’，用户可通过读取文件并解析文本与标签进行处理。在模型训练过程中，可结合PaddleNLP框架，利用预训练模型进行微调，并通过集成学习方法提升分类效果。最终，模型可用于对新新闻标题进行自动分类，评估指标为分类准确率。

背景与挑战

背景概述

THUCNews数据集是由新浪新闻RSS订阅频道2005至2011年的历史数据筛选和过滤生成的，包含了74万篇新闻文档，涵盖了14个主要类别，如财经、体育、科技等。该数据集的创建旨在支持中文新闻文本分类的研究，特别是在短文本分类任务中，为模型训练提供了丰富的语料资源。THUCNews数据集的发布不仅为自然语言处理领域的研究者提供了宝贵的数据资源，还推动了中文文本分类技术的进步，尤其是在深度学习模型的应用方面。

当前挑战

THUCNews数据集在构建和应用过程中面临多个挑战。首先，数据集的类别分布不均衡，某些类别如科技和股票的样本数量远多于其他类别，这可能导致模型在训练时对少数类别的分类效果不佳。其次，短文本分类任务本身具有一定的难度，因为新闻标题通常信息密度高且语义复杂，模型需要具备较强的语义理解能力。此外，预训练模型在处理大规模数据时需要大量的计算资源，尤其是在GPU显存有限的情况下，如何优化模型训练过程也是一个重要的挑战。

常用场景

经典使用场景

THUCNews数据集的经典使用场景主要集中在新闻标题的自动分类任务上。通过该数据集，研究者和开发者可以训练和优化文本分类模型，特别是针对中文新闻标题的14个类别进行分类。这些类别涵盖了财经、体育、科技、娱乐等多个领域，使得模型能够广泛应用于新闻内容的自动化处理和信息检索。

解决学术问题

THUCNews数据集解决了中文文本分类领域中的多个学术研究问题，特别是在短文本分类和多类别分类方面。通过该数据集，研究者可以探索如何利用预训练模型（如BERT、RoBERTa等）进行微调，以提高分类准确性。此外，该数据集还为研究不平衡数据集处理、模型集成学习等提供了丰富的实验平台，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，THUCNews数据集的分类模型可以广泛应用于新闻推荐系统、舆情监控、内容过滤等领域。例如，新闻网站可以利用该模型自动对新发布的新闻标题进行分类，从而提高内容管理的效率。此外，政府和企业也可以通过该模型对社交媒体上的新闻内容进行实时监控和分类，以便快速响应公众舆论和市场动态。

数据集最近研究

最新研究方向

近年来，THUCNews数据集在中文新闻文本分类领域引起了广泛关注，尤其是在预训练模型和集成学习的应用上取得了显著进展。研究者们通过微调多种预训练模型，如BERT、RoBERTa等，结合集成学习方法，进一步提升了新闻标题分类的准确性。此外，数据集的不均衡性问题也得到了重视，采用Focal Loss等损失函数来优化模型性能。这些研究不仅推动了中文自然语言处理技术的发展，也为新闻领域的自动化分类和信息检索提供了有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

1963-2015年中国主要木本植物春季物候（展叶和开花始期）格网数据产品（V1）

中国物候观测网1963–2015年白蜡、垂柳、刺槐、合欢、桑树、榆树、杏树、紫荆、紫丁香和加拿大杨10种木本植物的展叶始期和开花始期格网数据，时间分辨率为逐年，空间分辨率为0.5°×0.5°。数据集组成包括：（1）数据头文件，内含物种物候期和分布范围格网的头文件信息；（2）物种物候期，内含每个物种展叶始期和开花始期1963–2015年的逐年文件；（3）物种分布范围，内含每个物种的实际分布范围格网。

地球大数据科学工程收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

全国景区数据

中华人民共和国旅游景区质量等级共分为五级，从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。 CnOpenData汇总整理了全国31个省份及直辖市的景区信息，涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段，为相关研究助力！

CnOpenData 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录