five

cis-lmu/GlotStoryBook

收藏
Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/GlotStoryBook
下载链接
链接失效反馈
官方服务:
资源简介:
GlotStoryBook Corpus数据集包含180种ISO-639-3编码的故事书,分为两个子集:default和nalibali。default子集包含来自四个出版商的故事书,分别是African Storybook、Pratham Books、Little Cree Books和LIDA Stories。nalibali子集则来自Nalibali的故事资源。数据集可用于翻译、文本生成、文本到文本生成和摘要等任务。
提供机构:
cis-lmu
原始信息汇总

数据集概述

数据集名称

  • 名称: GlotStoryBook Corpus

数据集内容

  • 描述: 包含180种ISO-639-3语言代码的故事书数据集。
  • 出版商:
    1. African Storybook (asp)
    2. Pratham Books (pb)
    3. Little Cree Books (lcb)
    4. LIDA Stories (lida)

数据集语言

  • 语言列表: 包括ach, ada, adh, aeb, afr, alz, amh, anu, ara, asm, bem, ben, bod, bxk, cat, cce, ckb, crk, csw, ctu, dag, dan, deu, dga, din, dje, ell, eng, epo, ewe, fas, fat, fra, ful, gaa, gjn, guj, gur, guz, gyn, hat, hau, hbs, hch, her, hin, hun, hus, ind, ita, jam, jpn, kam, kan, kau, kdj, keo, khm, kik, kin, kln, kmr, kok, koo, kor, kpz, kqn, kri, kru, ktz, kua, kwn, laj, lat, lgg, lin, lit, lko, loz, lsm, luc, lue, lug, lun, luo, lwg, mal, mar, mas, mat, maz, mer, mfe, mhi, mhw, miu, mlg, mmc, mnw, mqu, msa, mya, myx, naq, nbl, nch, ndo, nep, nhe, nhw, nld, nle, nno, nob, nor, nso, nuj, nya, nyn, nyu, nzi, ocu, old, ori, orm, pan, pcm, pmq, pol, por, prs, pus, rki, ron, rus, sag, san, saq, sck, sme, som, sot, spa, sqi, srp, ssw, swa, swe, tam, tel, teo, tet, tgl, tha, tir, toh, toi, tsc, tsn, tso, ttj, tum, tur, tuv, twi, ukr, urd, ven, vie, xho, xog, xsm, yor, yua, yue, zho, zne, zul等。

数据集配置

  • 配置:
    • 名称: default
    • 数据文件:
      • 分割: train
      • 路径: GlotStoryBook.csv

数据集使用

  • 加载示例: python from datasets import load_dataset dataset = load_dataset(cis-lmu/GlotStoryBook) print(dataset[train][0]) # 打印第一行数据

数据集下载

  • 直接下载: python ! wget https://huggingface.co/datasets/cis-lmu/GlotStoryBook/resolve/main/GlotStoryBook.csv

数据集许可证

  • 许可证: 数据集中的每个文件都关联一个CC家族的许可证,包括CC BY, CC BY-NC, CC BY-NC-SA, CC-BY, CC-BY-NC, 和 Public Domain。此外,代码、包装和元数据使用cc0-1.0许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作