VatsaDev/fusion
收藏Hugging Face2024-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VatsaDev/fusion
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- question-answering
- text-generation
- text-classification
language:
- en
- fr
- it
- hi
---
# The Fusion Dataset
<center><img src="logo.jpg" alt="Fusion logo" width="300"/></center>
A massive collection of text from many datasets, the intenet, code, etc.
Currently only text based, may be multimodal in the future
Stages
- raw text files in folders
- deduplicated text
- synthetic grading, quality filters
- final dataset
Split into 3 parts
- Social - Includes Data from roleplay and social media, probably the noisest data*
- Pretrain - Large amounts of text for model pretrains, textbooks, webscrapes, etc
- Instruct - Instruction data, meant to a single format, for a model finetune
*Also the most uncensored/unfiltered, there is 4chan in here, probably a good idea to filter this
提供机构:
VatsaDev
原始信息汇总
融合数据集(The Fusion Dataset)
概述
融合数据集是一个庞大的文本集合,来源于多个数据集、互联网、代码等。目前仅包含文本数据,未来可能扩展为多模态数据。
数据处理阶段
- 原始文本文件:按文件夹分类的原始文本。
- 去重文本:去除重复的文本内容。
- 合成评分与质量过滤:进行合成评分和质量过滤。
- 最终数据集:经过处理的最终数据集。
数据集划分
- 社交数据(Social):包含角色扮演和社交媒体数据,可能是噪音最多的部分,且未经严格过滤。
- 预训练数据(Pretrain):大量用于模型预训练的文本,如教科书、网页抓取等。
- 指令数据(Instruct):格式统一的指令数据,用于模型微调。
语言
数据集包含以下语言:
- 英语(en)
- 法语(fr)
- 意大利语(it)
- 印地语(hi)
任务类别
数据集适用于以下任务:
- 问答(question-answering)
- 文本生成(text-generation)
- 文本分类(text-classification)
许可证
该数据集采用MIT许可证。



