the-cramer-project/Kyrgyz_News_Corpus
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/the-cramer-project/Kyrgyz_News_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
Kyrgyz_News_Corpus数据集是一个包含256,364条吉尔吉斯语新闻的集合,这些新闻通过网页抓取技术从多个新闻网站收集而来。数据集涵盖了政治、经济、文化、体育等多个主题的新闻。每条新闻条目包括文本和来源。该数据集仅用于研究目的,如自然语言处理、主题建模等,适合对吉尔吉斯语文本分析感兴趣的研究人员、开发者和学生。
Kyrgyz_News_Corpus数据集是一个包含256,364条吉尔吉斯语新闻的集合,这些新闻通过网页抓取技术从多个新闻网站收集而来。数据集涵盖了政治、经济、文化、体育等多个主题的新闻。每条新闻条目包括文本和来源。该数据集仅用于研究目的,如自然语言处理、主题建模等,适合对吉尔吉斯语文本分析感兴趣的研究人员、开发者和学生。
提供机构:
the-cramer-project
原始信息汇总
数据集概述
数据集名称
- 名称: Kyrgyz News Corpus
- 别名: The Kyrgyz News Corpus dataset
数据集描述
- 内容: 包含256364条新闻,主要收集自吉尔吉斯语的新闻网站,通过网络爬虫技术获取。
- 主题: 涵盖政治、经济、文化、体育等多个领域。
- 结构: 每个条目包含新闻文本及其来源。
数据集用途
- 目的: 仅限于研究用途,如自然语言处理、主题建模等。
- 适用对象: 研究人员、开发者、学生等对吉尔吉斯语文本分析感兴趣的群体。
数据集属性
- 语言: 吉尔吉斯语 (ky)
- 许可: CC-BY-NC-4.0
- 规模: 100K<n<1M
数据集来源
- 贡献者: 感谢吉尔吉斯斯坦的AI社区及AkylAI项目(由TheCramer.com支持)的个人贡献。
- 合作: 感谢吉尔吉斯新闻机构的支持。



