Everything_Instruct_Multilingual

Hugging Face2024-07-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Replete-AI/Everything_Instruct_Multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

Everything Instruct (Multilingual Edition)是一个大规模的alpaca指令格式数据集，包含多种语言和广泛的主题，旨在推动开源AI的发展。数据集包括科学、社交媒体、一般知识等多个类别，每个类别都有具体的行数，并且详细列出了每个类别的数据来源。

创建时间：

2024-07-03

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
支持语言:
- 英语
- 俄语
- 中文
- 韩语
- 乌尔都语
- 拉丁语
- 阿拉伯语
- 德语
- 西班牙语
- 法语
- 印地语
- 意大利语
- 日语
- 荷兰语
- 葡萄牙语
标签:
- 行数: 7,800,783
- 最大长度: 78,451

数据集描述

名称: Everything Instruct (Multilingual Edition)
格式: Alpaca instruct
目的: 提升开源AI模型的能力
特点:
- 完全未经过滤
- 支持多种语言
- 每行最大token上下文窗口为78,451

数据分布

科学: 12,580行
社交媒体: 18,405行
常识: 906,346行
多语言: 2,937,785行
烹饪: 20,763行
写作: 414,646行
医学: 36,738行
历史: 10,178行
法律: 90,394行
角色扮演: 433,205行
新闻: 124,542行
编程: 2,872,975行
数学: 262,039行
函数调用: 112,960行
通用指令: 998,854行

数据来源

科学:
- antiven0m/physical-reasoning-dpoScience
- LawalAfeez/science-dataset
社交媒体:
- Kyle1668/AG-Tweets
- euclaise/reddit-instruct-curated
常识:
- NousResearch/CharacterCodex_Characters
- jstet/quotes-500k_Famous_Quotes
- FronkonGames/steam-games-dataset_Video_Games
- totuta_youtube_subs_howto100M_HowTo
多语言:
- Amani27/massive_translation_dataset
- udmurtNLP/udmurt-russian-english-labse
- grosenthal/latin_english
- msarmi9/korean-english-multitarget-ted-talks-task
- HaiderSultanArc/MT-Urdu-English_Translate
- Garsa3112/ChineseEnglishTranslationDataset
烹饪:
- andrewsiah/se_cooking_preference_sft
- Hieu-Phamkaggle/food_recipes
写作:
- shahules786/PoetryFoundationData
- euclaise/writingprompts
- qwedsacf/ivypanda-essaysEssay
医学:
- keivalya/MedQuad-MedicalQnADataset
- nuvocare/MSD
历史:
- ambrosfitz10k/history_data_v4
法律:
- dzunggg/legal-qa-v1
角色扮演:
- roleplay4/fun_CoupleRP
- Undi95andrijdavid/roleplay-conversation-sharegpt
新闻:
- RealTimeData/bbc_news_alltime
编程:
- layoric/tiny-codes-alpaca
- glaiveai/glaive-code-assistant-v3
- ajibawa-2023/Code-290k-ShareGPT
- chargoddard/commitpack-ft-instruct-rated
- iamtarun/code_instructions_120k_alpaca
- ise-uiuc/Magicoder-Evol-Instruct-110K
- cognitivecomputations/dolphin-coder
- nickrosh/Evol-Instruct-Code-80k-v1
- coseal/CodeUltraFeedback_binarized
- CyberNative/Code_Vulnerability_Security_DPO
数学:
- TIGER-Lab/MathInstruct
函数调用:
- glaiveai/glaive-function-calling-v2
通用指令:
- teknium/OpenHermes-2.5

搜集汇总

数据集介绍

构建方式

Everything_Instruct_Multilingual数据集的构建基于多语言指令数据集，涵盖了多种语言和任务类型。该数据集通过整合现有的多语言数据集，并对其进行标准化处理，确保数据的一致性和可用性。构建过程中，特别注重数据的多样性和代表性，涵盖了从简单问答到复杂推理的多种任务类型，以满足不同研究需求。

特点

Everything_Instruct_Multilingual数据集的一个显著特点是其多语言覆盖范围广泛，支持多种语言的指令理解和生成任务。数据集中的任务类型丰富多样，包括文本生成、问答、翻译等，能够为多语言自然语言处理研究提供全面的支持。此外，数据集的标注质量高，确保了数据的可靠性和实用性。

使用方法

使用Everything_Instruct_Multilingual数据集时，研究人员可以通过加载数据集并选择特定的语言或任务类型进行实验。数据集提供了详细的文档和示例代码，帮助用户快速上手。用户可以根据需要调整数据处理流程，结合自己的模型进行训练和评估，以验证多语言指令理解和生成的效果。

背景与挑战

背景概述

Everything_Instruct_Multilingual数据集是一个多语言指令数据集，旨在支持多语言自然语言处理任务的研究与应用。该数据集由多个研究机构联合开发，涵盖了多种语言和任务类型，旨在提升模型在多语言环境下的理解和生成能力。其核心研究问题在于如何有效地处理多语言指令，以促进跨语言的自然语言处理技术的发展。该数据集自2022年发布以来，已在多语言机器翻译、跨语言文本生成等领域产生了显著影响，推动了多语言模型的研究进展。

当前挑战

Everything_Instruct_Multilingual数据集面临的挑战主要包括两个方面。首先，多语言指令的多样性和复杂性使得模型在理解和生成过程中容易产生歧义或错误，尤其是在低资源语言的处理上表现尤为突出。其次，数据集的构建过程中，如何确保不同语言之间的指令对等性和数据质量是一个巨大的挑战，尤其是在缺乏高质量平行语料的情况下。此外，多语言数据的标注和验证成本较高，进一步增加了数据集构建的难度。这些挑战不仅影响了模型的性能，也对多语言自然语言处理技术的实际应用提出了更高的要求。

常用场景

经典使用场景

Everything_Instruct_Multilingual数据集广泛应用于多语言指令理解和生成任务中，特别是在跨语言的自然语言处理研究中。该数据集通过提供多种语言的指令对，使得研究者能够训练和评估模型在多语言环境下的表现，从而推动多语言模型的发展。

衍生相关工作

基于Everything_Instruct_Multilingual数据集，研究者们开发了一系列多语言模型，如多语言BERT变体和多语言GPT模型。这些模型在跨语言文本分类、机器翻译和问答系统等任务中表现出色，进一步推动了多语言自然语言处理领域的研究进展。

数据集最近研究