Everything_Instruct_Multilingual
收藏Hugging Face2024-07-04 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Replete-AI/Everything_Instruct_Multilingual
下载链接
链接失效反馈官方服务:
资源简介:
Everything Instruct (Multilingual Edition)是一个大规模的alpaca指令格式数据集,包含多种语言和广泛的主题,旨在推动开源AI的发展。数据集包括科学、社交媒体、一般知识等多个类别,每个类别都有具体的行数,并且详细列出了每个类别的数据来源。
创建时间:
2024-07-03
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 支持语言:
- 英语
- 俄语
- 中文
- 韩语
- 乌尔都语
- 拉丁语
- 阿拉伯语
- 德语
- 西班牙语
- 法语
- 印地语
- 意大利语
- 日语
- 荷兰语
- 葡萄牙语
- 标签:
- 行数: 7,800,783
- 最大长度: 78,451
数据集描述
- 名称: Everything Instruct (Multilingual Edition)
- 格式: Alpaca instruct
- 目的: 提升开源AI模型的能力
- 特点:
- 完全未经过滤
- 支持多种语言
- 每行最大token上下文窗口为78,451
数据分布
- 科学: 12,580行
- 社交媒体: 18,405行
- 常识: 906,346行
- 多语言: 2,937,785行
- 烹饪: 20,763行
- 写作: 414,646行
- 医学: 36,738行
- 历史: 10,178行
- 法律: 90,394行
- 角色扮演: 433,205行
- 新闻: 124,542行
- 编程: 2,872,975行
- 数学: 262,039行
- 函数调用: 112,960行
- 通用指令: 998,854行
数据来源
- 科学:
- antiven0m/physical-reasoning-dpoScience
- LawalAfeez/science-dataset
- 社交媒体:
- Kyle1668/AG-Tweets
- euclaise/reddit-instruct-curated
- 常识:
- NousResearch/CharacterCodex_Characters
- jstet/quotes-500k_Famous_Quotes
- FronkonGames/steam-games-dataset_Video_Games
- totuta_youtube_subs_howto100M_HowTo
- 多语言:
- Amani27/massive_translation_dataset
- udmurtNLP/udmurt-russian-english-labse
- grosenthal/latin_english
- msarmi9/korean-english-multitarget-ted-talks-task
- HaiderSultanArc/MT-Urdu-English_Translate
- Garsa3112/ChineseEnglishTranslationDataset
- 烹饪:
- andrewsiah/se_cooking_preference_sft
- Hieu-Phamkaggle/food_recipes
- 写作:
- shahules786/PoetryFoundationData
- euclaise/writingprompts
- qwedsacf/ivypanda-essaysEssay
- 医学:
- keivalya/MedQuad-MedicalQnADataset
- nuvocare/MSD
- 历史:
- ambrosfitz10k/history_data_v4
- 法律:
- dzunggg/legal-qa-v1
- 角色扮演:
- roleplay4/fun_CoupleRP
- Undi95andrijdavid/roleplay-conversation-sharegpt
- 新闻:
- RealTimeData/bbc_news_alltime
- 编程:
- layoric/tiny-codes-alpaca
- glaiveai/glaive-code-assistant-v3
- ajibawa-2023/Code-290k-ShareGPT
- chargoddard/commitpack-ft-instruct-rated
- iamtarun/code_instructions_120k_alpaca
- ise-uiuc/Magicoder-Evol-Instruct-110K
- cognitivecomputations/dolphin-coder
- nickrosh/Evol-Instruct-Code-80k-v1
- coseal/CodeUltraFeedback_binarized
- CyberNative/Code_Vulnerability_Security_DPO
- 数学:
- TIGER-Lab/MathInstruct
- 函数调用:
- glaiveai/glaive-function-calling-v2
- 通用指令:
- teknium/OpenHermes-2.5
搜集汇总
数据集介绍

构建方式
Everything_Instruct_Multilingual数据集的构建基于多语言指令数据集,涵盖了多种语言和任务类型。该数据集通过整合现有的多语言数据集,并对其进行标准化处理,确保数据的一致性和可用性。构建过程中,特别注重数据的多样性和代表性,涵盖了从简单问答到复杂推理的多种任务类型,以满足不同研究需求。
特点
Everything_Instruct_Multilingual数据集的一个显著特点是其多语言覆盖范围广泛,支持多种语言的指令理解和生成任务。数据集中的任务类型丰富多样,包括文本生成、问答、翻译等,能够为多语言自然语言处理研究提供全面的支持。此外,数据集的标注质量高,确保了数据的可靠性和实用性。
使用方法
使用Everything_Instruct_Multilingual数据集时,研究人员可以通过加载数据集并选择特定的语言或任务类型进行实验。数据集提供了详细的文档和示例代码,帮助用户快速上手。用户可以根据需要调整数据处理流程,结合自己的模型进行训练和评估,以验证多语言指令理解和生成的效果。
背景与挑战
背景概述
Everything_Instruct_Multilingual数据集是一个多语言指令数据集,旨在支持多语言自然语言处理任务的研究与应用。该数据集由多个研究机构联合开发,涵盖了多种语言和任务类型,旨在提升模型在多语言环境下的理解和生成能力。其核心研究问题在于如何有效地处理多语言指令,以促进跨语言的自然语言处理技术的发展。该数据集自2022年发布以来,已在多语言机器翻译、跨语言文本生成等领域产生了显著影响,推动了多语言模型的研究进展。
当前挑战
Everything_Instruct_Multilingual数据集面临的挑战主要包括两个方面。首先,多语言指令的多样性和复杂性使得模型在理解和生成过程中容易产生歧义或错误,尤其是在低资源语言的处理上表现尤为突出。其次,数据集的构建过程中,如何确保不同语言之间的指令对等性和数据质量是一个巨大的挑战,尤其是在缺乏高质量平行语料的情况下。此外,多语言数据的标注和验证成本较高,进一步增加了数据集构建的难度。这些挑战不仅影响了模型的性能,也对多语言自然语言处理技术的实际应用提出了更高的要求。
常用场景
经典使用场景
Everything_Instruct_Multilingual数据集广泛应用于多语言指令理解和生成任务中,特别是在跨语言的自然语言处理研究中。该数据集通过提供多种语言的指令对,使得研究者能够训练和评估模型在多语言环境下的表现,从而推动多语言模型的发展。
衍生相关工作
基于Everything_Instruct_Multilingual数据集,研究者们开发了一系列多语言模型,如多语言BERT变体和多语言GPT模型。这些模型在跨语言文本分类、机器翻译和问答系统等任务中表现出色,进一步推动了多语言自然语言处理领域的研究进展。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言指令数据集的研究正逐渐成为热点。Everything_Instruct_Multilingual数据集因其涵盖多种语言的指令数据,为跨语言模型训练提供了丰富的资源。近年来,研究者们利用该数据集探索了多语言指令理解与生成的统一框架,旨在提升模型在低资源语言上的表现。此外,该数据集还被广泛应用于多语言对话系统的开发,推动了跨语言人机交互技术的发展。这些研究不仅增强了模型的语言适应性,也为全球化背景下的智能应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



