cis-lmu/GlotSparse
收藏Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/GlotSparse
下载链接
链接失效反馈官方服务:
资源简介:
GlotSparse Corpus是一个包含低资源语言新闻网站内容的集合。该数据集支持多种语言,包括Balochi、Gilaki、Brahui、Southern-Kurdish、Gurani、Kirmanjki、Fanti、Twi、South-Azerbaijani和Southern Uzbek等。数据集的使用方法、下载方式、来源、工具、许可证、伦理考虑、GitHub链接和引用信息在README中进行了详细说明。
提供机构:
cis-lmu
原始信息汇总
数据集概述
数据集名称
- 名称: GlotSparse Corpus
数据集内容
- 描述: 包含多种低资源语言的新闻网站内容。
- 语言: 数据集支持以下语言:
- bal (Balochi)
- glk (Gilaki)
- brh (Brahui)
- sdh (Southern-Kurdish)
- kur (Kurdish)
- hac (Gurani)
- kiu (Kirmanjki)
- zza (Kirmanjki)
- twi (Twi)
- fat (Fanti)
- aka (Fanti, Twi)
数据集配置
- 配置名称及对应文件:
- azb_Arab: "azb_Arab/azb_Arab.csv"
- bal_Arab: "bal_Arab/bal_Arab.csv"
- brh_Arab: "brh_Arab/brh_Arab.csv"
- fat_Latn: "fat_Latn/fat_Latn.csv"
- glk_Arab: "glk_Arab/glk_Arab.csv"
- hac_Arab: "hac_Arab/hac_Arab.csv"
- kiu_Latn: "kiu_Latn/kiu_Latn.csv"
- sdh_Arab: "sdh_Arab/sdh_Arab.csv"
- twi_Latn: "twi_Latn/twi_Latn.csv"
- uzs_Arab: "uzs_Arab/uzs_Arab.csv"
数据集来源
- Balochi: 新闻来源包括 sunnionline.us/balochi/ 和 kissah.org/。
- Gilaki: 内容来源于 Twitter,通过 Telegram 频道 https://t.me/gilaki_twitter 获取。
- Brahui: 新闻来源包括 talarbrahui.com/category/news/ 和 talarbrahui.com/category/articles/。
- Southern-Kurdish: 新闻来源为 shafaq.com/ku/ (Feyli)。
- Gurani: 新闻来源为 anfsorani.com/هۆرامی (Hawrami)。
- Kirmanjki: 新闻来源为 anfkirmancki.com/。
- Fanti: 新闻来源为 akannews.com/fante/。
- Twi: 新闻来源为 akannews.com/asante-twi/。
- South-Azerbaijani: 新闻来源为 www.trt.net.tr/turki/。
- Southern Uzbek: 新闻来源为 www.trt.net.tr/afghaniuzbek/。
许可证
- 许可证: cc0-1.0
使用说明
- 加载数据集: 使用 Hugging Face 的
load_dataset函数加载特定语言的数据集。 - 直接下载: 通过命令行工具直接下载特定语言的 CSV 文件。
伦理考虑
- 偏见: 数据集可能反映来源或创建者的观点和意见。
- 代表性: 数据集可能不完全代表所有母语者。
- 伦理: 数据收集和使用可能涉及伦理问题。



