five

Sogou news 新闻数据集

收藏
超神经2024-08-26 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/5487
下载链接
链接失效反馈
官方服务:
资源简介:
Sogou News Dataset 是由 SogouCA 和 SogouCS 新闻语料库构成的数据集,其拥有 5 个类别共计 2,909,551 篇文章,每个类别均包含 90,000 个训练样本和 12,000 个测试样本,并且这些样本均以转换为拼音。

The Sogou News Dataset is a collection constructed from the SogouCA and SogouCS news corpora. It contains a total of 2,909,551 articles across 5 categories, with each category comprising 90,000 training samples and 12,000 test samples. All samples in this dataset have been converted to Pinyin.
创建时间:
2023-04-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Sogou News 新闻数据集是一个大型中文新闻语料库,由SogouCA和SogouCS构成,包含5个类别总计超过290万篇文章,每个类别提供标准化的训练和测试样本,且所有文本已转换为拼音形式。该数据集适用于自然语言处理任务如文本生成和分类,但仅限于非商业用途,数据规模较大(366.5 MB),发布于3年前。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务