DeepPavlov/verbalist_prompts
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DeepPavlov/verbalist_prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言(主要是俄语和英语)的对话文本集合,涵盖了从逻辑任务到写作提示等多种类型的数据。数据集来源于多个公开数据集,如OpenAssistant、Wikihow、ShareGPT等,并经过了筛选和标准化处理,以便用于训练对话模型。数据集包含了多个分割,每个分割都有详细的字节数和示例数信息。
This dataset is a multilingual conversational text collection, primarily in Russian and English, covering various types of data ranging from logical reasoning tasks to writing prompts. It is sourced from multiple public datasets such as OpenAssistant, Wikihow, ShareGPT, and others, and has been filtered and standardized for training conversational models. The dataset includes multiple splits, each with detailed information on byte count and sample quantity.
提供机构:
DeepPavlov
原始信息汇总
数据集概述
数据集配置
数据集包含多个配置文件,每个配置文件指向不同的数据文件路径和分割。以下是主要的配置信息:
默认配置 (default)
- 分割 (
split):dim_oasst_en- 路径 (
path):data/dim_oasst_en-*
- 路径 (
- 分割 (
split):dim_oasst_ru- 路径 (
path):data/dim_oasst_ru-*
- 路径 (
- 分割 (
split):dim_lima- 路径 (
path):data/dim_lima-*
- 路径 (
- 分割 (
split):dim_logic_tasks_ru- 路径 (
path):data/dim_logic_tasks_ru-*
- 路径 (
- 分割 (
split):dim_wikihow_en- 路径 (
path):data/dim_wikihow_en-*
- 路径 (
- 分割 (
split):dim_wikihow_ru- 路径 (
path):data/dim_wikihow_ru-*
- 路径 (
- 分割 (
split):dim_essayforum_writing_prompts_6k- 路径 (
path):data/dim_essayforum_writing_prompts_6k-*
- 路径 (
- 分割 (
split):dim_sharegpt_short_ru- 路径 (
path):data/dim_sharegpt_short_ru-*
- 路径 (
- 分割 (
split):dim_openreview_prompts_65- 路径 (
path):data/dim_openreview_prompts_65-*
- 路径 (
- 分割 (
split):dim_roleplay_instruct_v2_final- 路径 (
path):data/dim_roleplay_instruct_v2_final-*
- 路径 (
- 分割 (
split):dim_kinomania_scripts- 路径 (
path):data/dim_kinomania_scripts-*
- 路径 (
- 分割 (
split):dim_bugurt_thread_prompts- 路径 (
path):data/dim_bugurt_thread_prompts-*
- 路径 (
- 分割 (
split):dim_russian_lyrics_prompts- 路径 (
path):data/dim_russian_lyrics_prompts-*
- 路径 (
- 分割 (
split):dim_ru_instruct_gpt4- 路径 (
path):data/dim_ru_instruct_gpt4-*
- 路径 (
- 分割 (
split):dim_gpt_roleplay_realm- 路径 (
path):data/dim_gpt_roleplay_realm-*
- 路径 (
- 分割 (
split):dim_ultrachat_ru- 路径 (
path):data/dim_ultrachat_ru-*
- 路径 (
- 分割 (
split):dim_scitldr- 路径 (
path):data/dim_scitldr-*
- 路径 (
- 分割 (
split):dim_linux_man_pages_tldr_summarized- 路径 (
path):data/dim_linux_man_pages_tldr_summarized-*
- 路径 (
- 分割 (
split):dim_dolphin_ru_3k- 路径 (
path):data/dim_dolphin_ru_3k-*
- 路径 (
- 分割 (
split):dim_runne_prompts- 路径 (
path):data/dim_runne_prompts-*
- 路径 (
- 分割 (
split):dim_lurk_prompts- 路径 (
path):data/dim_lurk_prompts-*
- 路径 (
- 分割 (
split):dim_panorama_prompts_10k- 路径 (
path):data/dim_panorama_prompts_10k-*
- 路径 (
- 分割 (
split):dim_resh_edu_short_prompts- 路径 (
path):data/dim_resh_edu_short_prompts-*
- 路径 (
- 分割 (
split):dim_databricks_dolly_15k_ru- 路径 (
path):data/dim_databricks_dolly_15k_ru-*
- 路径 (
- 分割 (
split):dim_databricks_dolly_15k_en- 路径 (
path):data/dim_databricks_dolly_15k_en-*
- 路径 (
- 分割 (
split):dim_grammarly_coedit- 路径 (
path):data/dim_grammarly_coedit-*
- 路径 (
- 分割 (
split):dim_kinopoisk_prompts- 路径 (
path):data/dim_kinopoisk_prompts-*
- 路径 (
- 分割 (
split):dim_medical_qa_ru_prompts- 路径 (
path):data/dim_medical_qa_ru_prompts-*
- 路径 (
- 分割 (
split):dim_joke_explaination_prompts- 路径 (
path):data/dim_joke_explaination_prompts-*
- 路径 (
- 分割 (
split):dim_oa_stackexchange_200k- 路径 (
path):data/dim_oa_stackexchange_200k-*
- 路径 (
- 分割 (
split):dim_scale_helpful_no_math- 路径 (
path):data/dim_scale_helpful_no_math-*
- 路径 (
- 分割 (
split):dim_law_stackexchange_prompts- 路径 (
path):data/dim_law_stackexchange_prompts-*
- 路径 (
- 分割 (
split):dim_ficbook_prompts_best_10k- 路径 (
path):data/dim_ficbook_prompts_best_10k-*
- 路径 (
- 分割 (
split):dim_azbyka_logic_ru- 路径 (
path):data/dim_azbyka_logic_ru-*
- 路径 (
- 分割 (
split):dim_povarenok- 路径 (
path):data/dim_povarenok-*
- 路径 (
- 分割 (
split):dim_AO3_fandom_chatbot_1to1- 路径 (
path):data/dim_AO3_fandom_chatbot_1to1-*
- 路径 (
- 分割 (
split):dim_habr_prompts_5k- 路径 (
path):data/dim_habr_prompts_5k-*
- 路径 (
- 分割 (
split):dim_what_where_when_50k- 路径 (
path):data/dim_what_where_when_50k-*
- 路径 (
- 分割 (
split):dim_competition_math- 路径 (
path):data/dim_competition_math-*
- 路径 (
- 分割 (
split):dim_sharegpt_short_en_30k- 路径 (
path):data/dim_sharegpt_short_en_30k-*
- 路径 (
- 分割 (
split):dim_ru_turbo_alpaca_evol_instruct- 路径 (
path):data/dim_ru_turbo_alpaca_evol_instruct-*
- 路径 (
- 分割 (
split):dim_ru_turbo_saiga- 路径 (
path):data/dim_ru_turbo_saiga-*
- 路径 (
- 分割 (
split):dim_bugurt_completion_prompts- 路径 (
path):data/dim_bugurt_completion_prompts-*
- 路径 (
- 分割 (
split):dim_tldr_17_50k- 路径 (
path):data/dim_tldr_17_50k-*
- 路径 (
- 分割 (
split):dim_grade_school_math_instructions- 路径 (
path):data/dim_grade_school_math_instructions-*
- 路径 (
- 分割 (
split):dim_tldr_news- 路径 (
path):data/dim_tldr_news-*
- 路径 (
- 分割 (
split):dim_grade_school_math_instructions_ru- 路径 (
path):data/dim_grade_school_math_instructions_ru-*
- 路径 (
- 分割 (
split):dim_dialogsum- 路径 (
path):data/dim_dialogsum-*
- 路径 (
- 分割 (
split):dim_HC3_ru- 路径 (
path):data/dim_HC3_ru-*
- 路径 (
- 分割 (
split):dim_horoscopes_ru_10k- 路径 (
path):data/dim_horoscopes_ru_10k-*
- 路径 (
- 分割 (
split):dim_yandex_q_200k- 路径 (
path):data/dim_yandex_q_200k-*
- 路径 (
- 分割 (
split):dim_leetcodesolutions_en_2k- 路径 (
path):data/dim_leetcodesolutions_en_2k-*
- 路径 (
- 分割 (
split):dim_forum_uristov_rf_prompts- 路径 (
path):data/dim_forum_uristov_rf_prompts-*
- 路径 (
- 分割 (
split):dim_dialogsum_ru- 路径 (
path):data/dim_dialogsum_ru-*
- 路径 (
- 分割 (
split):dim_huggingartists_prompts- 路径 (
path):data/dim_huggingartists_prompts-*
- 路径 (
数据集信息
数据集包含多个分割,每个分割具有不同的特征和大小。以下是主要的分割信息:
分割详情
- 名称 (
name):dim_oasst_en- 字节数 (
num_bytes): 4335500 - 示例数 (
num_examples): 2289
- 字节数 (
- 名称 (
name):dim_oasst_ru- 字节数 (
num_bytes): 6206378 - 示例数 (
num_examples): 2220
- 字节数 (
- 名称 (
name):dim_lima- 字节数 (
num_bytes): 2892267 - 示例数 (
num_examples): 1030
- 字节数 (
- 名称 (
name):dim_logic_tasks_ru- 字节数 (
num_bytes): 76915 - 示例数 (
num_examples): 86
- 字节数 (
- 名称 (
name):dim_wikihow_en- 字节数 (
num_bytes): 16008199 - 示例数 (
num_examples): 1995
- 字节数 (
- 名称 (
name):dim_wikihow_ru- 字节数 (
num_bytes): 24451573 - 示例数 (
num_examples): 2058
- 字节数 (
- 名称 (
name):dim_essayforum_writing_prompts_6k- 字节数 (
num_bytes): 22326330 - 示例数 (
num_examples): 6361
- 字节数 (
- 名称 (
name):dim_sharegpt_short_ru- 字节数 (
num_bytes): 808319 - 示例数 (
num_examples): 253
- 字节数 (
- 名称 (
name):dim_openreview_prompts_65- 字节数 (
num_bytes): 6739952 - 示例数 (
num_examples): 150
- 字节数 (
- 名称 (
name):dim_roleplay_instruct_v2_final- 字节数 (
num_bytes): 4389286 - 示例数 (
num_examples): 7188
- 字节数 (
- 名称 (
name):dim_kinomania_scripts- 字节数 (
num_bytes): 238731 - 示例数 (
num_examples): 27
- 字节数 (
- 名称 (
name):dim_bugurt_thread_prompts- 字节数 (
num_bytes): 302191 - 示例数 (
num_examples): 223
- 字节数 (
- 名称 (
name):dim_russian_lyrics_prompts- 字节数 (
num_bytes): 18676 - 示例数 (
num_examples): 43
- 字节数 (
- 名称 (
name):dim_ru_instruct_gpt4- 字节数 (
num_bytes): 18351658 - 示例数 (
num_examples): 14222
- 字节数 (
- 名称 (
name):dim_gpt_roleplay_realm- 字节数 (
num_bytes): 20163429 - 示例数 (
num_examples): 8700
- 字节数 (
- 名称 (
name):dim_ultrachat_ru- 字节数 (
num_bytes): 4495105 - 示例数 (
num_examples): 500
- 字节数 (
- 名称 (
name):dim_scitldr- 字节数 (
num_bytes): 4049209 - 示例数 (
num_examples): 3229
- 字节数 (
- 名称 (
name):dim_linux_man_pages_tldr_summarized- 字节数 (
num_bytes): 3006631 - 示例数 (
num_examples): 481
- 字节数 (
- 名称 (
name):dim_dolphin_ru_3k- 字节数 (
num_bytes): 7976776 - 示例数 (
num_examples): 3000
- 字节数 (
- 名称 (
name):dim_runne_prompts- 字节数 (
num_bytes): 2686148 - 示例数 (
num_examples): 537
- 字节数 (
- 名称 (
name):dim_lurk_prompts- 字节数 (
num_bytes): 92012533 - 示例数 (
num_examples): 5671
- 字节数 (
- 名称 (
name):dim_panorama_prompts_10k- 字节数 (
num_bytes): 28964132 - 示例数 (
num_examples): 11024
- 字节数 (
- 名称 (
name):dim_resh_edu_short_prompts- 字节数 (
num_bytes): 12380000 - 示例数 (
num_examples): 2106
- 字节数 (
- 名称 (
name):dim_databricks_dolly_15k_ru- 字节数 (
num_bytes): 21900617 - 示例数 (
num_examples): 14914
- 字节数 (
- 名称 (
name):dim_databricks_dolly_15k_en- 字节数 (
num_bytes): 11973713 - 示例数 (
num_examples): 15011
- 字节数 (
- 名称 (
name):dim_grammarly_coedit- 字节数 (
num_bytes): 18500223 - 示例数 (
num_examples): 82466
- 字节数 (
- 名称 (
name):dim_kinopoisk_prompts- 字节数 (
num_bytes): 136323982 - 示例数 (
num_examples): 36591
- 字节数 (
- 名称 (
name):dim_medical_qa_ru_prompts- 字节数 (
num_bytes): 75634717 - 示例数 (
num_examples): 80101
- 字节数 (
- 名称 (
name):dim_joke_explaination_prompts- 字节数 (
num_bytes): 196224 - 示例数 (
num_examples): 36
- 字节数 (



