five

the-cramer-project/Kyrgyz_News_Corpus

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/the-cramer-project/Kyrgyz_News_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Kyrgyz_News_Corpus数据集是一个包含256,364条吉尔吉斯语新闻的集合,这些新闻通过网页抓取技术从多个新闻网站收集而来。数据集涵盖了政治、经济、文化、体育等多个主题的新闻。每条新闻条目包括文本和来源。该数据集仅用于研究目的,如自然语言处理、主题建模等,适合对吉尔吉斯语文本分析感兴趣的研究人员、开发者和学生。

Kyrgyz_News_Corpus数据集是一个包含256,364条吉尔吉斯语新闻的集合,这些新闻通过网页抓取技术从多个新闻网站收集而来。数据集涵盖了政治、经济、文化、体育等多个主题的新闻。每条新闻条目包括文本和来源。该数据集仅用于研究目的,如自然语言处理、主题建模等,适合对吉尔吉斯语文本分析感兴趣的研究人员、开发者和学生。
提供机构:
the-cramer-project
原始信息汇总

数据集概述

数据集名称

  • 名称: Kyrgyz News Corpus
  • 别名: The Kyrgyz News Corpus dataset

数据集描述

  • 内容: 包含256364条新闻,主要收集自吉尔吉斯语的新闻网站,通过网络爬虫技术获取。
  • 主题: 涵盖政治、经济、文化、体育等多个领域。
  • 结构: 每个条目包含新闻文本及其来源。

数据集用途

  • 目的: 仅限于研究用途,如自然语言处理、主题建模等。
  • 适用对象: 研究人员、开发者、学生等对吉尔吉斯语文本分析感兴趣的群体。

数据集属性

  • 语言: 吉尔吉斯语 (ky)
  • 许可: CC-BY-NC-4.0
  • 规模: 100K<n<1M

数据集来源

  • 贡献者: 感谢吉尔吉斯斯坦的AI社区及AkylAI项目(由TheCramer.com支持)的个人贡献。
  • 合作: 感谢吉尔吉斯新闻机构的支持。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作