cis-lmu/GlotStoryBook
收藏Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/GlotStoryBook
下载链接
链接失效反馈官方服务:
资源简介:
GlotStoryBook Corpus数据集包含180种ISO-639-3编码的故事书,分为两个子集:default和nalibali。default子集包含来自四个出版商的故事书,分别是African Storybook、Pratham Books、Little Cree Books和LIDA Stories。nalibali子集则来自Nalibali的故事资源。数据集可用于翻译、文本生成、文本到文本生成和摘要等任务。
提供机构:
cis-lmu
原始信息汇总
数据集概述
数据集名称
- 名称: GlotStoryBook Corpus
数据集内容
- 描述: 包含180种ISO-639-3语言代码的故事书数据集。
- 出版商:
- African Storybook (asp)
- Pratham Books (pb)
- Little Cree Books (lcb)
- LIDA Stories (lida)
数据集语言
- 语言列表: 包括ach, ada, adh, aeb, afr, alz, amh, anu, ara, asm, bem, ben, bod, bxk, cat, cce, ckb, crk, csw, ctu, dag, dan, deu, dga, din, dje, ell, eng, epo, ewe, fas, fat, fra, ful, gaa, gjn, guj, gur, guz, gyn, hat, hau, hbs, hch, her, hin, hun, hus, ind, ita, jam, jpn, kam, kan, kau, kdj, keo, khm, kik, kin, kln, kmr, kok, koo, kor, kpz, kqn, kri, kru, ktz, kua, kwn, laj, lat, lgg, lin, lit, lko, loz, lsm, luc, lue, lug, lun, luo, lwg, mal, mar, mas, mat, maz, mer, mfe, mhi, mhw, miu, mlg, mmc, mnw, mqu, msa, mya, myx, naq, nbl, nch, ndo, nep, nhe, nhw, nld, nle, nno, nob, nor, nso, nuj, nya, nyn, nyu, nzi, ocu, old, ori, orm, pan, pcm, pmq, pol, por, prs, pus, rki, ron, rus, sag, san, saq, sck, sme, som, sot, spa, sqi, srp, ssw, swa, swe, tam, tel, teo, tet, tgl, tha, tir, toh, toi, tsc, tsn, tso, ttj, tum, tur, tuv, twi, ukr, urd, ven, vie, xho, xog, xsm, yor, yua, yue, zho, zne, zul等。
数据集配置
- 配置:
- 名称: default
- 数据文件:
- 分割: train
- 路径: GlotStoryBook.csv
数据集使用
- 加载示例: python from datasets import load_dataset dataset = load_dataset(cis-lmu/GlotStoryBook) print(dataset[train][0]) # 打印第一行数据
数据集下载
- 直接下载: python ! wget https://huggingface.co/datasets/cis-lmu/GlotStoryBook/resolve/main/GlotStoryBook.csv
数据集许可证
- 许可证: 数据集中的每个文件都关联一个CC家族的许可证,包括CC BY, CC BY-NC, CC BY-NC-SA, CC-BY, CC-BY-NC, 和 Public Domain。此外,代码、包装和元数据使用cc0-1.0许可证。



