dichspace/darulm
收藏Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dichspace/darulm
下载链接
链接失效反馈官方服务:
资源简介:
DaruLM数据集是一个不断增长的文本集合,用于俄语大型语言模型(LLM)的适应,涵盖了多个领域。这些文本来源于其他Hugging Face数据集和开放资源。该数据集仅可用于非商业的科学目的。数据集当前涵盖的领域包括会计、古董、格言、艺术、传记、生物学、商业、电影、计算机、设计、戏剧、经济学、维基百科、散文、幻想、地理、指南、历史、幽默、语言、法律、文学、医学、军事、音乐、哲学、心理学、参考、宗教、科学、社会学、教科书、维基等。
提供机构:
dichspace
原始信息汇总
DaruLM 数据集概述
数据集描述
- 名称: DaruLM
- 语言: 俄语 (ru), 英语 (en)
- 大小: 100M<n<1B
- 标签: 不适用于所有观众
- 用途: 仅限于科学研究非商业使用
- 来源: 由Ilya Gusev提供的初始数据集,从其他Hugging Face数据集和开放资源中提取
- 特点: 包含多个领域的文本,用于俄语大型语言模型(LLM)的适应性训练
- 警告: 某些领域的分割基于词汇统计,可能存在噪声
当前领域
- 数据集包含以下领域,用于
load_datasets函数的domains参数:- 会计 (accounting)
- 古董 (antique)
- 格言 (aphorisms)
- 艺术 (art)
- 传记 (biography)
- 生物学 (biology)
- 布里亚特语 (buriy)
- 商业 (business)
- 电影 (cinema)
- 计算机 (computers)
- 设计 (design)
- 戏剧 (dramaturgy)
- 经济学 (economics)
- 维基百科 (enwiki)
- 随笔 (essay)
- 奇幻 (fantasy)
- 报纸 (gazeta)
- 地理 (geography)
- 指南书 (guidebooks)
- 技术博客 (habr)
- 历史 (history)
- 幽默 (humor)
- 语言学 (language)
- 法律 (law)
- 新闻 (lenta)
- 文学 (literature)
- 医学 (medicine)
- 军事 (military)
- 音乐 (music)
- 塔斯社 (ods-tass)
- 哲学 (philosophy)
- 皮卡布 (pikabu)
- 政治 (politic)
- 散文 (prose)
- 心理学 (psychology)
- 参考资料 (reference)
- 宗教 (religion)
- 科学 (science)
- 社会学 (sociology)
- 泰加森林-芬坦卡 (taiga-fontanka)
- 教科书 (textbook)
- 维基 (wiki)
- 未定义 (UNDEFINED)
使用方法
-
安装依赖: bash pip install datasets zstandard jsonlines pysimdjson
-
加载数据集: python import datasets
加载habr和教科书领域
for example in datasets.load_dataset(dichspace/darulm, domains=["habr","textbook"], split="train", streaming=True): print(example.keys()) print(example) break



