the-cramer-project/Kyrgyz_News_Corpus

Name: the-cramer-project/Kyrgyz_News_Corpus
Creator: the-cramer-project
Published: 2024-04-02 17:13:46
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/the-cramer-project/Kyrgyz_News_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Kyrgyz_News_Corpus数据集是一个包含256,364条吉尔吉斯语新闻的集合，这些新闻通过网页抓取技术从多个新闻网站收集而来。数据集涵盖了政治、经济、文化、体育等多个主题的新闻。每条新闻条目包括文本和来源。该数据集仅用于研究目的，如自然语言处理、主题建模等，适合对吉尔吉斯语文本分析感兴趣的研究人员、开发者和学生。

提供机构：

the-cramer-project

原始信息汇总

数据集概述

数据集名称

名称: Kyrgyz News Corpus
别名: The Kyrgyz News Corpus dataset

数据集描述

内容: 包含256364条新闻，主要收集自吉尔吉斯语的新闻网站，通过网络爬虫技术获取。
主题: 涵盖政治、经济、文化、体育等多个领域。
结构: 每个条目包含新闻文本及其来源。

数据集用途

目的: 仅限于研究用途，如自然语言处理、主题建模等。
适用对象: 研究人员、开发者、学生等对吉尔吉斯语文本分析感兴趣的群体。

数据集属性

语言: 吉尔吉斯语 (ky)
许可: CC-BY-NC-4.0
规模: 100K<n<1M

数据集来源

贡献者: 感谢吉尔吉斯斯坦的AI社区及AkylAI项目（由TheCramer.com支持）的个人贡献。
合作: 感谢吉尔吉斯新闻机构的支持。

5,000+

优质数据集

54 个

任务类型

进入经典数据集