five

cis-lmu/GlotSparse

收藏
Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/GlotSparse
下载链接
链接失效反馈
官方服务:
资源简介:
GlotSparse Corpus是一个包含低资源语言新闻网站内容的集合。该数据集支持多种语言,包括Balochi、Gilaki、Brahui、Southern-Kurdish、Gurani、Kirmanjki、Fanti、Twi、South-Azerbaijani和Southern Uzbek等。数据集的使用方法、下载方式、来源、工具、许可证、伦理考虑、GitHub链接和引用信息在README中进行了详细说明。
提供机构:
cis-lmu
原始信息汇总

数据集概述

数据集名称

  • 名称: GlotSparse Corpus

数据集内容

  • 描述: 包含多种低资源语言的新闻网站内容。
  • 语言: 数据集支持以下语言:
    • bal (Balochi)
    • glk (Gilaki)
    • brh (Brahui)
    • sdh (Southern-Kurdish)
    • kur (Kurdish)
    • hac (Gurani)
    • kiu (Kirmanjki)
    • zza (Kirmanjki)
    • twi (Twi)
    • fat (Fanti)
    • aka (Fanti, Twi)

数据集配置

  • 配置名称及对应文件:
    • azb_Arab: "azb_Arab/azb_Arab.csv"
    • bal_Arab: "bal_Arab/bal_Arab.csv"
    • brh_Arab: "brh_Arab/brh_Arab.csv"
    • fat_Latn: "fat_Latn/fat_Latn.csv"
    • glk_Arab: "glk_Arab/glk_Arab.csv"
    • hac_Arab: "hac_Arab/hac_Arab.csv"
    • kiu_Latn: "kiu_Latn/kiu_Latn.csv"
    • sdh_Arab: "sdh_Arab/sdh_Arab.csv"
    • twi_Latn: "twi_Latn/twi_Latn.csv"
    • uzs_Arab: "uzs_Arab/uzs_Arab.csv"

数据集来源

  • Balochi: 新闻来源包括 sunnionline.us/balochi/ 和 kissah.org/。
  • Gilaki: 内容来源于 Twitter,通过 Telegram 频道 https://t.me/gilaki_twitter 获取。
  • Brahui: 新闻来源包括 talarbrahui.com/category/news/ 和 talarbrahui.com/category/articles/。
  • Southern-Kurdish: 新闻来源为 shafaq.com/ku/ (Feyli)。
  • Gurani: 新闻来源为 anfsorani.com/هۆرامی (Hawrami)。
  • Kirmanjki: 新闻来源为 anfkirmancki.com/。
  • Fanti: 新闻来源为 akannews.com/fante/。
  • Twi: 新闻来源为 akannews.com/asante-twi/。
  • South-Azerbaijani: 新闻来源为 www.trt.net.tr/turki/。
  • Southern Uzbek: 新闻来源为 www.trt.net.tr/afghaniuzbek/。

许可证

  • 许可证: cc0-1.0

使用说明

  • 加载数据集: 使用 Hugging Face 的 load_dataset 函数加载特定语言的数据集。
  • 直接下载: 通过命令行工具直接下载特定语言的 CSV 文件。

伦理考虑

  • 偏见: 数据集可能反映来源或创建者的观点和意见。
  • 代表性: 数据集可能不完全代表所有母语者。
  • 伦理: 数据收集和使用可能涉及伦理问题。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作