VatsaDev/fusion

Name: VatsaDev/fusion
Creator: VatsaDev
Published: 2024-04-19 16:07:22
License: 暂无描述

Hugging Face2024-04-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/VatsaDev/fusion

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - question-answering - text-generation - text-classification language: - en - fr - it - hi --- # The Fusion Dataset <center><img src="logo.jpg" alt="Fusion logo" width="300"/></center> A massive collection of text from many datasets, the intenet, code, etc. Currently only text based, may be multimodal in the future Stages - raw text files in folders - deduplicated text - synthetic grading, quality filters - final dataset Split into 3 parts - Social - Includes Data from roleplay and social media, probably the noisest data* - Pretrain - Large amounts of text for model pretrains, textbooks, webscrapes, etc - Instruct - Instruction data, meant to a single format, for a model finetune *Also the most uncensored/unfiltered, there is 4chan in here, probably a good idea to filter this

提供机构：

VatsaDev

原始信息汇总

融合数据集（The Fusion Dataset）

概述

融合数据集是一个庞大的文本集合，来源于多个数据集、互联网、代码等。目前仅包含文本数据，未来可能扩展为多模态数据。

数据处理阶段

原始文本文件：按文件夹分类的原始文本。
去重文本：去除重复的文本内容。
合成评分与质量过滤：进行合成评分和质量过滤。
最终数据集：经过处理的最终数据集。

数据集划分

社交数据（Social）：包含角色扮演和社交媒体数据，可能是噪音最多的部分，且未经严格过滤。
预训练数据（Pretrain）：大量用于模型预训练的文本，如教科书、网页抓取等。
指令数据（Instruct）：格式统一的指令数据，用于模型微调。

语言

数据集包含以下语言：

英语（en）
法语（fr）
意大利语（it）
印地语（hi）

任务类别

数据集适用于以下任务：

问答（question-answering）
文本生成（text-generation）
文本分类（text-classification）

许可证

该数据集采用MIT许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集