JJhooww/dolphin_ptbr_alpaca_format
收藏Hugging Face2024-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JJhooww/dolphin_ptbr_alpaca_format
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- pt
size_categories:
- 100K<n<1M
task_categories:
- text-generation
dataset_info:
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 1597230663
num_examples: 843626
download_size: 908250812
dataset_size: 1597230663
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
Golfinho 🐬
https://erichartford.com/dolphin
Detalhes do conjunto de dados
Este conjunto de dados é uma tentativa de replicar os resultados do Orca da Microsoft.
Nosso conjunto de dados consiste em:
- Aproximadamente 1 milhão de FLANv2 aumentados com completudes GPT-4 (flan1m-alpaca-uncensored.jsonl)
- Aproximadamente 3,5 milhões de FLANv2 aumentados com completudes GPT-3.5 (flan5m-alpaca-uncensored.jsonl)
Seguimos a distribuição de submix e sistema de estímulo descrita no artigo do Orca. Com algumas exceções. Incluímos todos os 75.000 do CoT no conjunto de dados FLAN-1m em vez de amostrá-lo. Além disso, descobrimos que muitos itens estavam duplicados, então removemos as duplicatas, resultando em 3,5 milhões de instruções no conjunto de dados ChatGPT.
Em seguida, filtramos instâncias de alinhamento, recusa, evasão e viés, a fim de produzir um modelo não censurado no qual pode ser aplicada sua personalizada alinhamento LoRA.
Distribuição de tokens para completudes GPT-3.5

Carregando
```python
## carregar
dataset = load_dataset("JJhooww/dolphin_ptbr_alpaca_format")
```
Este conjunto de dados possui licença apache-2.0 para uso comercial ou não comercial.
Os modelos Dolphin que forem lançados estarão sujeitos à licença do modelo fundamental no qual foram treinados. (Os lançamentos do LLaMA serão não comerciais)
Gostaria de agradecer à equipe variada de engenheiros de IA/ML de código aberto que trabalharam ao meu lado nessa empreitada. Incluindo:
- Wing "Caseus" Lian e NanoBit do OpenAccess AI Collective
- Rohan
- Teknium
- Pankaj Mathur
- Tom "TheBloke" Jobbins por quantizar e amplificar
- Agradecimentos especiais a EdenCoder e chirper.ai por mentoria e patrocínio financeiro.
- Agradecimentos especiais a Kilkonie por sua mentoria muito valorizada.
- Todas as outras pessoas da comunidade de IA de código aberto que me ensinaram e me ajudaram ao longo do caminho.
This dataset is an attempt to replicate the results of Microsofts Orca project. The dataset consists of approximately 1 million FLANv2 augmented with GPT-4 completions (flan1m-alpaca-uncensored.jsonl) and approximately 3.5 million FLANv2 augmented with GPT-3.5 completions (flan5m-alpaca-uncensored.jsonl). The dataset has been deduplicated and filtered to produce an uncensored model where custom LoRA alignment can be applied. The dataset is licensed under apache-2.0 for both commercial and non-commercial use.
提供机构:
JJhooww
原始信息汇总
数据集概述
语言
- 葡萄牙语 (pt)
数据集大小
- 100K<n<1M
任务类别
- 文本生成
数据集信息
- 特征
instruction: 字符串类型input: 字符串类型output: 字符串类型
- 分割
train: 1,597,230,663 字节, 843,626 个样本
- 下载大小: 908,250,812 字节
- 数据集大小: 1,597,230,663 字节
配置
- 默认配置
data_files:split: trainpath: data/train-*
数据集组成
- 约 100 万条 FLANv2 增强的 GPT-4 完成 (flan1m-alpaca-uncensored.jsonl)
- 约 350 万条 FLANv2 增强的 GPT-3.5 完成 (flan5m-alpaca-uncensored.jsonl)
数据处理
- 包含所有 75,000 条 CoT 数据
- 移除重复项,最终得到 350 万条指令
- 过滤对齐、拒绝、回避和偏见实例,以产生非审查模型
许可证
- Apache-2.0 许可证,适用于商业和非商业用途
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量指令数据集对于提升模型性能至关重要。Dolphin数据集通过精心设计的流程构建而成,其核心方法基于对FLANv2数据集的增强处理。具体而言,该数据集整合了约一百万条由GPT-4生成的FLANv2增强样本,以及约三百五十万条由GPT-3.5生成的FLANv2增强样本。构建过程中严格遵循了Orca论文中描述的混合分布与提示系统框架,同时进行了优化调整,例如完整纳入CoT数据而非抽样,并系统性地去除了重复条目。为进一步提升数据质量,团队还过滤了涉及对齐、拒绝、回避及偏见倾向的实例,旨在形成一套未经审查的指令数据集,为后续的个性化对齐微调奠定基础。
特点
作为面向文本生成任务的葡萄牙语数据集,Dolphin展现出若干显著特征。该数据集规模庞大,包含超过八十万条训练样本,每条样本均结构化地呈现为指令、输入和输出三个字段,这种格式便于模型进行指令跟随训练。数据集特别注重内容的多样性与丰富性,不仅覆盖广泛的FLANv2任务类型,还通过大语言模型生成进行了深度增强。尤为突出的是,其构建过程有意规避了常见的审查机制,移除了对齐性、拒绝性和规避性内容,从而保留了更原始、更广泛的语言表达模式,为研究无约束语言生成提供了独特资源。
使用方法
在模型训练与评估实践中,Dolphin数据集提供了便捷的应用途径。研究人员可通过Hugging Face的`load_dataset`函数直接加载该数据集,指定其标识符即可获取完整的训练分割数据。数据集采用Apache-2.0开源协议,允许商业与非商业用途,但需注意,基于该数据训练的最终模型其许可可能受所选用基础模型条款的约束。典型应用场景包括:作为指令微调数据源,用于提升模型在葡萄牙语任务上的遵循与生成能力;亦可作为基准数据集,用于评估模型在多样化、未经过滤的指令上的表现。使用时应充分考虑其未经审查的特点,并在最终应用阶段实施必要的安全与伦理对齐措施。
背景与挑战
背景概述
在自然语言处理领域,高质量指令微调数据集的构建对于提升大型语言模型的泛化能力与任务适应性至关重要。Dolphin数据集由开源社区的研究者于2023年创建,旨在复现微软Orca模型的研究成果,其核心研究问题聚焦于通过大规模、多样化的指令-输出对,优化模型在葡萄牙语文本生成任务中的表现。该数据集基于FLANv2框架,利用GPT-4与GPT-3.5生成增强数据,涵盖了近百万至数百万条样本,显著推动了多语言指令微调技术的发展,并为开源社区提供了重要的非商业用途资源。
当前挑战
Dolphin数据集致力于解决多语言文本生成中指令跟随与内容生成的精确性挑战,尤其在葡萄牙语语境下,需克服语言特异性与语义连贯性的平衡问题。在构建过程中,数据去重与质量过滤成为主要难点,研究者需从海量生成结果中剔除重复条目,并移除涉及偏见、拒绝或规避性内容的数据,以确保数据集的纯净性与实用性。此外,遵循Orca论文中的子混合分布与提示系统设计,同时调整数据采样策略,也增加了工程实现的复杂性。
常用场景
经典使用场景
在自然语言处理领域,特别是针对葡萄牙语文本生成任务,JJhooww/dolphin_ptbr_alpaca_format数据集为研究者提供了丰富的指令微调资源。该数据集基于FLANv2框架,通过GPT-4和GPT-3.5生成的高质量补全内容进行增强,旨在复现微软Orca模型的效果。其经典使用场景集中在训练大规模语言模型,尤其是针对葡萄牙语语境下的指令遵循和文本生成能力优化,为模型在多样化任务中的泛化性能奠定基础。
解决学术问题
该数据集有效解决了多语言自然语言处理中葡萄牙语资源相对匮乏的学术挑战。通过整合数百万条指令-输出对,它支持模型在复杂推理、知识问答和创造性写作等任务上的性能提升。其设计遵循Orca论文中的子混合分布和提示系统,同时去除了对齐、拒绝、回避和偏见实例,为无审查模型的定制化对齐研究提供了数据基础,推动了语言模型在伦理和实用性方面的平衡探索。
衍生相关工作
该数据集衍生了多个经典工作,包括Dolphin系列模型的开发,这些模型基于LLaMA等基础架构进行微调,并在开源社区中广泛传播。相关工作还涉及对指令数据集去重和过滤技术的改进,以及多语言模型对齐方法的探索。社区贡献者如OpenAccess AI Collective和TheBloke通过量化和优化进一步扩展了其影响力,推动了葡萄牙语AI工具的民主化进程。
以上内容由遇见数据集搜集并总结生成



