five

toutiao-text-classfication-dataset|文本分类数据集|新闻数据数据集

收藏
github2020-12-09 更新2024-05-31 收录
文本分类
新闻数据
下载链接:
https://github.com/yufeiyi/toutiao-text-classfication-dataset
下载链接
链接失效反馈
资源简介:
今日头条中文新闻文本分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。数据来源于今日头条客户端,采集时间为2018年05月。

The Toutiao Chinese News Text Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was sourced from the Toutiao client, with the collection period being May 2018.
创建时间:
2019-07-11
原始信息汇总

数据集概述

数据来源

  • 今日头条客户端

数据格式

  • 每条数据包含五个字段,以_!_分割:
    • 新闻ID
    • 分类code
    • 分类名称
    • 新闻标题
    • 新闻关键词

分类code与名称

  • 100: 民生故事 (news_story)
  • 101: 文化 (news_culture)
  • 102: 娱乐 (news_entertainment)
  • 103: 体育 (news_sports)
  • 104: 财经 (news_finance)
  • 106: 房产 (news_house)
  • 107: 汽车 (news_car)
  • 108: 教育 (news_edu)
  • 109: 科技 (news_tech)
  • 110: 军事 (news_military)
  • 112: 旅游 (news_travel)
  • 113: 国际 (news_world)
  • 114: 证券 (stock)
  • 115: 农业 (news_agriculture)
  • 116: 电竞 (news_game)

数据规模

  • 共382688条数据,分布于15个分类中。

采集时间

  • 2018年05月

实验结果

  • 测试损失 (Test Loss): 0.57
  • 测试准确率 (Test Acc): 83.81%
  • 各类别的精确度 (precision), 召回率 (recall) 和 F1分数 (f1-score) 详细列出。

存在的问题与优化建议

  • 问题:数据不均衡,部分类目数据太少;部分分类之间模棱两可。
  • 优化建议:增加数据量,完善分类,平衡分类数据,引入正文内容。
AI搜集汇总
数据集介绍
main_image_url
构建方式
toutiao-text-classfication-dataset数据集源自今日头条客户端,通过系统化采集与整理,构建了一个包含382688条新闻文本的分类数据集。每条数据由新闻ID、分类code、分类名称、新闻标题及关键词五个字段组成,各字段以`_!_`分隔。数据集涵盖15个分类,包括民生、文化、娱乐、体育等,旨在为中文文本分类研究提供丰富的语料资源。
使用方法
使用toutiao-text-classfication-dataset数据集时,研究者可以将其用于中文文本分类模型的训练与评估。首先,需根据数据格式解析每条新闻记录,提取新闻标题和关键词作为特征输入。随后,利用分类code进行标签映射,构建训练与测试数据集。研究者可根据实验需求,调整数据分割比例,并参考已有实验结果进行模型优化,以提升分类准确率。
背景与挑战
背景概述
在自然语言处理领域,文本分类一直是核心研究课题之一。toutiao-text-classfication-dataset数据集由今日头条客户端于2018年5月采集,旨在为中文文本分类研究提供丰富的数据资源。该数据集包含了382688条新闻标题及其对应的分类信息,涵盖15个不同类别,如娱乐、体育、财经等。这一数据集的创建不仅为研究人员提供了一个标准化的测试平台,还推动了中文文本分类技术的发展,特别是在多类别分类和数据不均衡问题上的研究。
当前挑战
尽管toutiao-text-classfication-dataset数据集在文本分类研究中具有重要价值,但其构建过程中仍面临若干挑战。首先,数据集中的类别分布不均衡,部分类别如股票的数据量极少,这影响了模型的泛化能力。其次,部分分类之间存在模棱两可的情况,如故事、文化、旅行等,增加了分类的难度。此外,数据集仅包含新闻标题,未引入正文内容,限制了模型对文本深层次语义的理解。未来,通过增加数据量、完善分类体系以及引入更多文本信息,可以进一步提升数据集的质量和应用价值。
常用场景
经典使用场景
在自然语言处理领域,toutiao-text-classfication-dataset 数据集被广泛应用于中文文本分类任务。该数据集通过提供丰富的文本标题和关键词,使得研究者能够训练和评估各种文本分类模型。其经典使用场景包括但不限于:基于深度学习的文本分类模型训练、特征提取方法的比较研究、以及多标签分类技术的探索。
解决学术问题
toutiao-text-classfication-dataset 数据集解决了中文文本分类中的多个关键学术问题。首先,它为研究者提供了一个大规模、多类别的中文文本数据集,有助于推动中文自然语言处理技术的发展。其次,数据集中的不均衡类别分布和模棱两可的分类边界,为研究数据不均衡问题和分类边界模糊问题提供了宝贵的实验材料。此外,该数据集还促进了文本分类模型在实际应用中的性能提升。
实际应用
在实际应用中,toutiao-text-classfication-dataset 数据集被用于构建和优化新闻推荐系统、内容过滤系统以及舆情分析工具。通过准确分类新闻标题和关键词,这些系统能够更有效地为用户推荐相关内容,过滤不相关信息,并实时分析公众对特定话题的情感和态度。此外,该数据集还支持企业进行市场分析和品牌监测,帮助企业更好地理解市场动态和消费者行为。
数据集最近研究
最新研究方向
在自然语言处理领域,toutiao-text-classfication-dataset数据集因其丰富的文本分类信息和广泛的应用场景,成为研究热点。最新研究方向主要集中在提升分类模型的准确性和鲁棒性,特别是在处理数据不均衡和类别模糊的问题上。研究者们通过引入更多的数据、扩展分类类别、优化数据分布以及结合新闻正文信息,以期提高模型的泛化能力和实际应用效果。此外,该数据集也被用于探索多模态学习,结合图像和文本信息进行更精准的分类,进一步推动了文本分类技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

New locus reveals the genetic architecture of sex reversal in the Chinese tongue sole (Cynoglossus semilaevis)

Sex reversal in insects, amphibians, reptiles, and fishes is a complicated and interesting biological phenomenon. Sex reversal changes the sex ratio of populations and may complicate breeding schemes. In the Chinese tongue sole (Cynoglossus semilaevis), genetic females may change into pseudomales, thereby increasing aquaculture costs because of the lower growth rate of the males than that of the females. Here, we identify a new locus associated with sex reversal; this single nucleotide polymorphism (SNP) is located in the third intron of the doublesex and mab-3 related transcription factor 1 (Dmrt1) gene on the Z chromosome (named Cyn_Z_8564889) and has two alleles, A and G. Cyn_Z_8564889 regulates sex reversal interactively with our previously detected SNP (Cyn_Z_6676874), with the genetic females simultaneously carrying the T allele of Cyn_Z_6676874 and the A allele of Cyn_Z_8564889 changing into pseudomales. Other Dmrt1 polymorphisms were detected, which formed two haplotypes. Two SN...

DataONE 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录