five

community-datasets/sogou_news|新闻分类数据集|中文文本分析数据集

收藏
hugging_face2024-06-26 更新2024-06-15 收录
新闻分类
中文文本分析
下载链接:
https://hf-mirror.com/datasets/community-datasets/sogou_news
下载链接
链接失效反馈
资源简介:
Sogou News数据集是来自SogouCA和SogouCS新闻语料库的2,909,551篇新闻文章的混合体,分为5个类别。每个类别的训练样本数量为90,000个,测试样本数量为12,000个。新闻的分类标签由其URL中的域名决定。例如,URL为http://sports.sohu.com的新闻被归类为体育类。数据集中的中文汉字已转换为拼音。
提供机构:
community-datasets
原始信息汇总

搜狗新闻数据集(Sogou News)

数据集概述

搜狗新闻数据集包含来自搜狗CA和搜狗CS新闻语料库的2,909,551篇新闻文章,分为5个类别。每个类别的训练样本数量为90,000篇,测试样本数量为12,000篇。注意,中文汉字已转换为拼音。新闻的分类标签由其URL中的域名决定。

数据结构

数据实例

以下是一个训练样本的示例:

json { "content": "du2 jia1 ti2 go1ng me3i ri4 ba4o jia4 \n re4 xia4n :010-64438227\n che1 xi2ng ba4o jia4 - cha2 xu2n jie2 guo3 \n pi3n pa2i xi2ng ha4o jia4 ge2 ji1ng xia1o sha1ng ri4 qi1 zha1 ka4n ca1n shu4 pi2ng lu4n ", "label": 3, "title": " da3o ha2ng " }

数据字段

所有分割的数据字段相同:

  • title:字符串特征。
  • content:字符串特征。
  • label:分类标签,可能的值包括 sports (0), finance (1), entertainment (2), automobile (3), technology (4)。

数据分割

名称 训练集 测试集
默认 450000 60000

数据集创建

数据集大小

  • 下载的数据集文件大小:384.27 MB
  • 生成的数据集大小:1.43 GB
  • 总磁盘使用量:1.81 GB

引用信息

bibtex @misc{zhang2015characterlevel, title={Character-level Convolutional Networks for Text Classification}, author={Xiang Zhang and Junbo Zhao and Yann LeCun}, year={2015}, eprint={1509.01626}, archivePrefix={arXiv}, primaryClass={cs.LG} }

贡献者

感谢 @lhoestq, @mariamabarham, @lewtun, @thomwolf 添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Sogou News数据集的构建基于SogouCA和SogouCS新闻语料库,涵盖了2,909,551篇新闻文章。数据集的分类标签通过新闻URL中的域名确定,例如,URL为http://sports.sohu.com的新闻被归类为体育类别。数据集中的中文内容已被转换为拼音,以适应特定的研究需求。训练集和测试集分别包含450,000和60,000个样本,确保了数据集的均衡性和广泛性。
使用方法
Sogou News数据集适用于多种自然语言处理任务,特别是文本分类和情感分析。研究者可以通过加载数据集的训练和测试分割来训练和评估模型。数据集的结构包括新闻标题、内容和分类标签,这些字段可以直接用于模型的输入和输出。为了充分利用数据集,建议研究者根据具体任务调整数据预处理步骤,并选择合适的模型架构进行训练和验证。
背景与挑战
背景概述
Sogou News数据集是由SogouCA和SogouCS新闻语料库中的2,909,551篇新闻文章组成,涵盖了五个主要类别:体育、财经、娱乐、汽车和技术。该数据集的主要研究人员包括Xiang Zhang、Junbo Zhao和Yann LeCun,其核心研究问题在于文本分类,特别是基于字符级别的卷积网络。该数据集的创建旨在为自然语言处理领域提供一个大规模、多类别的新闻文本分类基准,从而推动相关技术的发展和应用。
当前挑战
Sogou News数据集在构建过程中面临的主要挑战包括:首先,数据集的规模庞大,处理和存储这些数据需要高效的计算资源和存储解决方案。其次,新闻文本的多样性和复杂性使得分类任务变得尤为困难,尤其是在处理不同领域和主题的新闻时。此外,数据集中可能存在的偏见和噪声也是需要解决的重要问题,以确保分类模型的公平性和准确性。
常用场景
经典使用场景
在自然语言处理领域,Sogou News数据集常用于文本分类任务,特别是新闻内容的自动分类。通过训练模型识别新闻标题和内容中的关键信息,该数据集能够有效区分体育、财经、娱乐、汽车和技术等五大类别。这一应用场景不仅提升了新闻分类的准确性,还为后续的文本挖掘和信息检索提供了坚实的基础。
解决学术问题
Sogou News数据集在学术研究中解决了文本分类中的多类别识别问题,特别是在中文语境下的应用。其丰富的样本量和明确的类别标签,为研究者提供了一个标准化的测试平台,促进了中文文本分类算法的发展和优化。此外,该数据集还推动了跨语言文本分类技术的研究,具有重要的学术价值和影响力。
实际应用
在实际应用中,Sogou News数据集被广泛用于新闻推荐系统和内容过滤系统。通过自动分类新闻内容,这些系统能够为用户提供个性化的新闻推荐,提高用户体验。同时,该数据集也在舆情监控和信息安全领域发挥了重要作用,帮助企业和政府机构快速识别和处理敏感信息,确保信息传播的安全性和有效性。
数据集最近研究
最新研究方向
在新闻分类领域,Sogou News数据集的最新研究方向主要集中在多模态融合与深度学习模型的优化上。研究者们致力于通过结合文本、图像和视频等多模态信息,提升新闻分类的准确性和鲁棒性。此外,随着自然语言处理技术的进步,基于Transformer架构的模型,如BERT和GPT系列,被广泛应用于新闻内容理解和分类任务中,显著提高了分类性能。这些研究不仅推动了新闻推荐系统的发展,也为跨领域信息处理提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

SeaDronesSee

SeaDronesSee是由德国图宾根大学认知系统组创建的大型视觉对象检测和跟踪基准,专注于海洋环境中的人类检测。该数据集包含超过54,000帧,总计400,000个实例,从不同高度和视角(5至260米,0至90度)捕获,并提供详细的元信息。数据集的创建旨在填补陆基视觉系统与海基系统之间的差距,特别适用于无人机辅助的海上搜救任务。SeaDronesSee通过提供精确的元数据,如高度、视角和速度,支持多模态系统的开发,以提高检测的准确性和速度。此外,数据集还包括多光谱图像,利用非可见光谱(如近红外和红边光谱)来增强人类检测能力。

arXiv 收录

IWSLT/iwslt2017

IWSLT 2017数据集是一个多语言翻译数据集,涵盖了多种语言对,包括英语、阿拉伯语、德语、荷兰语、意大利语、罗马尼亚语、法语、日语、韩语和中文。数据集的主要任务是文本翻译,包括零样本翻译。数据集的结构包括训练集、验证集和测试集,每个语言对都有相应的数据实例和字段。数据集的创建过程、注释过程以及使用数据时的考虑因素等信息未在README中详细描述。

hugging_face 收录