five

VatsaDev/fusion

收藏
Hugging Face2024-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VatsaDev/fusion
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - question-answering - text-generation - text-classification language: - en - fr - it - hi --- # The Fusion Dataset <center><img src="logo.jpg" alt="Fusion logo" width="300"/></center> A massive collection of text from many datasets, the intenet, code, etc. Currently only text based, may be multimodal in the future Stages - raw text files in folders - deduplicated text - synthetic grading, quality filters - final dataset Split into 3 parts - Social - Includes Data from roleplay and social media, probably the noisest data* - Pretrain - Large amounts of text for model pretrains, textbooks, webscrapes, etc - Instruct - Instruction data, meant to a single format, for a model finetune *Also the most uncensored/unfiltered, there is 4chan in here, probably a good idea to filter this
提供机构:
VatsaDev
原始信息汇总

融合数据集(The Fusion Dataset)

概述

融合数据集是一个庞大的文本集合,来源于多个数据集、互联网、代码等。目前仅包含文本数据,未来可能扩展为多模态数据。

数据处理阶段

  1. 原始文本文件:按文件夹分类的原始文本。
  2. 去重文本:去除重复的文本内容。
  3. 合成评分与质量过滤:进行合成评分和质量过滤。
  4. 最终数据集:经过处理的最终数据集。

数据集划分

  1. 社交数据(Social):包含角色扮演和社交媒体数据,可能是噪音最多的部分,且未经严格过滤。
  2. 预训练数据(Pretrain):大量用于模型预训练的文本,如教科书、网页抓取等。
  3. 指令数据(Instruct):格式统一的指令数据,用于模型微调。

语言

数据集包含以下语言:

  • 英语(en)
  • 法语(fr)
  • 意大利语(it)
  • 印地语(hi)

任务类别

数据集适用于以下任务:

  • 问答(question-answering)
  • 文本生成(text-generation)
  • 文本分类(text-classification)

许可证

该数据集采用MIT许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作