five

dichspace/darulm

收藏
Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dichspace/darulm
下载链接
链接失效反馈
官方服务:
资源简介:
DaruLM数据集是一个不断增长的文本集合,用于俄语大型语言模型(LLM)的适应,涵盖了多个领域。这些文本来源于其他Hugging Face数据集和开放资源。该数据集仅可用于非商业的科学目的。数据集当前涵盖的领域包括会计、古董、格言、艺术、传记、生物学、商业、电影、计算机、设计、戏剧、经济学、维基百科、散文、幻想、地理、指南、历史、幽默、语言、法律、文学、医学、军事、音乐、哲学、心理学、参考、宗教、科学、社会学、教科书、维基等。
提供机构:
dichspace
原始信息汇总

DaruLM 数据集概述

数据集描述

  • 名称: DaruLM
  • 语言: 俄语 (ru), 英语 (en)
  • 大小: 100M<n<1B
  • 标签: 不适用于所有观众
  • 用途: 仅限于科学研究非商业使用
  • 来源: 由Ilya Gusev提供的初始数据集,从其他Hugging Face数据集和开放资源中提取
  • 特点: 包含多个领域的文本,用于俄语大型语言模型(LLM)的适应性训练
  • 警告: 某些领域的分割基于词汇统计,可能存在噪声

当前领域

  • 数据集包含以下领域,用于load_datasets函数的domains参数:
    • 会计 (accounting)
    • 古董 (antique)
    • 格言 (aphorisms)
    • 艺术 (art)
    • 传记 (biography)
    • 生物学 (biology)
    • 布里亚特语 (buriy)
    • 商业 (business)
    • 电影 (cinema)
    • 计算机 (computers)
    • 设计 (design)
    • 戏剧 (dramaturgy)
    • 经济学 (economics)
    • 维基百科 (enwiki)
    • 随笔 (essay)
    • 奇幻 (fantasy)
    • 报纸 (gazeta)
    • 地理 (geography)
    • 指南书 (guidebooks)
    • 技术博客 (habr)
    • 历史 (history)
    • 幽默 (humor)
    • 语言学 (language)
    • 法律 (law)
    • 新闻 (lenta)
    • 文学 (literature)
    • 医学 (medicine)
    • 军事 (military)
    • 音乐 (music)
    • 塔斯社 (ods-tass)
    • 哲学 (philosophy)
    • 皮卡布 (pikabu)
    • 政治 (politic)
    • 散文 (prose)
    • 心理学 (psychology)
    • 参考资料 (reference)
    • 宗教 (religion)
    • 科学 (science)
    • 社会学 (sociology)
    • 泰加森林-芬坦卡 (taiga-fontanka)
    • 教科书 (textbook)
    • 维基 (wiki)
    • 未定义 (UNDEFINED)

使用方法

  • 安装依赖: bash pip install datasets zstandard jsonlines pysimdjson

  • 加载数据集: python import datasets

    加载habr和教科书领域

    for example in datasets.load_dataset(dichspace/darulm, domains=["habr","textbook"], split="train", streaming=True): print(example.keys()) print(example) break

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作