dichspace/darulm

Name: dichspace/darulm
Creator: dichspace
Published: 2024-02-08 13:03:28
License: 暂无描述

Hugging Face2024-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dichspace/darulm

下载链接

链接失效反馈

官方服务：

资源简介：

DaruLM数据集是一个不断增长的文本集合，用于俄语大型语言模型（LLM）的适应，涵盖了多个领域。这些文本来源于其他Hugging Face数据集和开放资源。该数据集仅可用于非商业的科学目的。数据集当前涵盖的领域包括会计、古董、格言、艺术、传记、生物学、商业、电影、计算机、设计、戏剧、经济学、维基百科、散文、幻想、地理、指南、历史、幽默、语言、法律、文学、医学、军事、音乐、哲学、心理学、参考、宗教、科学、社会学、教科书、维基等。

提供机构：

dichspace

原始信息汇总

DaruLM 数据集概述

数据集描述

名称: DaruLM
语言: 俄语 (ru), 英语 (en)
大小: 100M<n<1B
标签: 不适用于所有观众
用途: 仅限于科学研究非商业使用
来源: 由Ilya Gusev提供的初始数据集，从其他Hugging Face数据集和开放资源中提取
特点: 包含多个领域的文本，用于俄语大型语言模型（LLM）的适应性训练
警告: 某些领域的分割基于词汇统计，可能存在噪声

当前领域

数据集包含以下领域，用于load_datasets函数的domains参数:
- 会计 (accounting)
- 古董 (antique)
- 格言 (aphorisms)
- 艺术 (art)
- 传记 (biography)
- 生物学 (biology)
- 布里亚特语 (buriy)
- 商业 (business)
- 电影 (cinema)
- 计算机 (computers)
- 设计 (design)
- 戏剧 (dramaturgy)
- 经济学 (economics)
- 维基百科 (enwiki)
- 随笔 (essay)
- 奇幻 (fantasy)
- 报纸 (gazeta)
- 地理 (geography)
- 指南书 (guidebooks)
- 技术博客 (habr)
- 历史 (history)
- 幽默 (humor)
- 语言学 (language)
- 法律 (law)
- 新闻 (lenta)
- 文学 (literature)
- 医学 (medicine)
- 军事 (military)
- 音乐 (music)
- 塔斯社 (ods-tass)
- 哲学 (philosophy)
- 皮卡布 (pikabu)
- 政治 (politic)
- 散文 (prose)
- 心理学 (psychology)
- 参考资料 (reference)
- 宗教 (religion)
- 科学 (science)
- 社会学 (sociology)
- 泰加森林-芬坦卡 (taiga-fontanka)
- 教科书 (textbook)
- 维基 (wiki)
- 未定义 (UNDEFINED)

使用方法

安装依赖: bash pip install datasets zstandard jsonlines pysimdjson
加载数据集: python import datasets

加载habr和教科书领域

for example in datasets.load_dataset(dichspace/darulm, domains=["habr","textbook"], split="train", streaming=True): print(example.keys()) print(example) break

5,000+

优质数据集

54 个

任务类型

进入经典数据集

dichspace/darulm

DaruLM 数据集概述

数据集描述

当前领域

使用方法

加载habr和教科书领域