Replete-AI/Everything_Instruct_Multilingual_8k_context_filtered
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Replete-AI/Everything_Instruct_Multilingual_8k_context_filtered
下载链接
链接失效反馈官方服务:
资源简介:
Everything Instruct (Multilingual Edition) 是一个大规模的、多语言的指令格式数据集,旨在提升开源AI的语言模型性能。数据集包含多种主题,如科学、社交媒体、常识、多语言内容、烹饪、写作、医学、历史、法律、角色扮演、新闻、编码、数学、函数调用和通用指令等。数据集支持多种语言,包括英语、俄语、中文、韩语、乌尔都语、拉丁语、阿拉伯语、德语、西班牙语、法语、印地语、意大利语、日语、荷兰语和葡萄牙语。数据集的特点是未经过滤,意味着模型在训练后不会拒绝任何请求,除非另有调整。
Everything Instruct (Multilingual Edition) is a massive, multilingual instruction-formatted dataset designed to enhance the performance of open-source AI language models. The dataset covers a wide variety of topics including science, social media, general knowledge, multilingual content, cooking, writing, medicine, history, law, role-play, news, coding, mathematics, function calling, and general instructions. It supports multiple languages such as English, Russian, Chinese, Korean, Urdu, Latin, Arabic, German, Spanish, French, Hindi, Italian, Japanese, Dutch, and Portuguese. The dataset is fully uncensored, meaning that models trained on it will not refuse any requests unless otherwise aligned.
提供机构:
Replete-AI
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 支持语言:
- 英语
- 俄语
- 中文
- 韩语
- 乌尔都语
- 拉丁语
- 阿拉伯语
- 德语
- 西班牙语
- 法语
- 印地语
- 意大利语
- 日语
- 荷兰语
- 葡萄牙语
- 标签:
- 行数: 7,799,967
- 最大长度: 8180
数据集描述
- 名称: Everything Instruct (Multilingual Edition)
- 格式: Alpaca instruct
- 内容: 包含多种主题,旨在提升开源AI的水平。
- 特点: 完全未经审查,支持多种语言。
数据分类
- 科学: 12,580行
- 社交媒体: 18,405行
- 常识: 906,346行
- 多语言: 2,937,785行
- 烹饪: 20,763行
- 写作: 414,646行
- 医学: 36,738行
- 历史: 10,178行
- 法律: 90,394行
- 角色扮演: 433,205行
- 新闻: 124,542行
- 编程: 2,872,975行
- 数学: 262,039行
- 函数调用: 112,960行
- 通用指令: 998,854行
数据来源
- 科学:
- antiven0m/physical-reasoning-dpoScience
- LawalAfeez/science-dataset
- 社交媒体:
- Kyle1668/AG-Tweets
- euclaise/reddit-instruct-curated
- 常识:
- NousResearch/CharacterCodex_Characters
- jstet/quotes-500k_Famous_Quotes
- FronkonGames/steam-games-dataset_Video_Games
- totuta_youtube_subs_howto100M_HowTo
- 多语言:
- Amani27/massive_translation_dataset
- udmurtNLP/udmurt-russian-english-labse
- grosenthal/latin_english
- msarmi9/korean-english-multitarget-ted-talks-task
- HaiderSultanArc/MT-Urdu-English_Translate
- Garsa3112/ChineseEnglishTranslationDataset
- 烹饪:
- andrewsiah/se_cooking_preference_sft
- Hieu-Phamkaggle/food_recipes
- 写作:
- shahules786/PoetryFoundationData
- euclaise/writingprompts
- qwedsacf/ivypanda-essaysEssay
- 医学:
- keivalya/MedQuad-MedicalQnADataset
- nuvocare/MSD
- 历史:
- ambrosfitz10k/history_data_v4
- 法律:
- dzunggg/legal-qa-v1
- 角色扮演:
- roleplay4/fun_CoupleRP
- Undi95andrijdavid/roleplay-conversation-sharegpt
- 新闻:
- RealTimeData/bbc_news_alltime
- 编程:
- layoric/tiny-codes-alpaca
- glaiveai/glaive-code-assistant-v3
- ajibawa-2023/Code-290k-ShareGPT
- chargoddard/commitpack-ft-instruct-rated
- iamtarun/code_instructions_120k_alpaca
- ise-uiuc/Magicoder-Evol-Instruct-110K
- cognitivecomputations/dolphin-coder
- nickrosh/Evol-Instruct-Code-80k-v1
- coseal/CodeUltraFeedback_binarized
- CyberNative/Code_Vulnerability_Security_DPO
- 数学:
- TIGER-Lab/MathInstruct
- 函数调用:
- glaiveai/glaive-function-calling-v2
- 通用指令:
- teknium/OpenHermes-2.5



