five

Maxs Awesome Datasets

收藏
github2025-04-23 更新2025-04-24 收录
下载链接:
https://github.com/Mxoder/Maxs-Awesome-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这个仓库收录了我个人自建的数据集,所有数据集均已上传至 Hugging Face,欢迎使用和提出建议。

This repository contains my personally constructed datasets, all of which have been uploaded to Hugging Face. Welcome to use and provide suggestions.
创建时间:
2025-04-21
原始信息汇总

Maxs Awesome Datasets 数据集概述

简介

  • 该仓库收录个人自建数据集,所有数据集均已上传至Hugging Face。
  • 数据集持续更新,涵盖多种类型和领域。

精选数据集 (Highlighted)

  1. Chinese-Instruct 🚧

    • 大规模中文指令微调数据集,高质量、多指令来源、大规模。
    • 规模:3.6M+
    • 链接:https://huggingface.co/datasets/Mxode/Chinese-Instruct
  2. Meow-Reasoning-100K

    • 猫猫语气的推理数据集。
    • 规模:100K
    • 链接:https://huggingface.co/datasets/Mxode/Meow-Reasoning-100K
  3. Chinese-Reasoning-Distil-Data 🚧

    • 中文推理蒸馏数据集,全新构造。
    • 规模:56K
    • 链接:https://huggingface.co/datasets/Mxode/Chinese-Reasoning-Distil-Data
  4. BiST 🚧

    • 大规模中英双语翻译数据集。
    • 规模:57M
    • 链接:https://huggingface.co/datasets/Mxode/BiST
  5. Chinese-Medical-Instruct-1M

    • 中文医疗指令微调数据集。
    • 规模:1M
    • 链接:https://huggingface.co/datasets/Mxode/Chinese-Medical-Instruct-1M

指令微调数据集 (SFT)

  1. IndustryInstruction-Chinese

    • 中文行业指令数据集。
    • 规模:1M+
    • 链接:https://huggingface.co/datasets/Mxode/IndustryInstruction-Chinese
  2. Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery

    • 中文农林渔牧问答数据集。
    • 规模:1M+
    • 链接:https://huggingface.co/datasets/Mxode/Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery

推理数据集 (Reasoning)

  1. Chinese-OpenQA-Reasoning-50K
    • 中文开放式问答推理数据集。
    • 规模:50K
    • 链接:https://huggingface.co/datasets/Mxode/Chinese-OpenQA-Reasoning-50K

基础数据集

  1. Fineweb-Edu-Chinese-V2.1-merged-score4_5
    • Fineweb-Edu-Chinese-V2.1的评分4~5数据子集。
    • 规模:17M+
    • 链接:https://huggingface.co/datasets/Mxode/Fineweb-Edu-Chinese-V2.1-merged-score4_5

其他数据集

  1. Psychologist-psiholog-zh_ru

    • 中俄双语心理咨询数据集。
    • 规模:17K+
    • 链接:https://huggingface.co/datasets/Mxode/Psychologist-psiholog-zh_ru
  2. StackOverflow-QA-C-Language-40k

    • StackOverflow上关于C语言的问答数据集。
    • 规模:40K
    • 链接:https://huggingface.co/datasets/Mxode/StackOverflow-QA-C-Language-40k
搜集汇总
数据集介绍
main_image_url
构建方式
Max's Awesome Datasets是一个由个人构建的多领域数据集集合,其构建过程体现了严谨的数据科学方法。数据集主要通过采集真实语料,经过多步骤的过滤、清洗、合成和校验流程完成构建。部分数据集是在现有开源数据集基础上进行二次开发,如对Firefly-1.1M数据集的清洗和增强,或对IndustryInstruction数据集的重新整理。值得注意的是,该集合中的推理数据集采用了创新的R1格式构建,并特别设计了猫猫语气的独特表达方式。
特点
该数据集集合最显著的特点是领域覆盖广泛且具有创新性,包含医疗、农业、编程、数学等多个专业领域。数据质量把控严格,如中文医疗指令数据集确保回复依赖于真实参考源,数学数据集所有答案均经过正确性校验。集合中不乏特色数据集,如完全以猫猫语气构建的推理数据集,展现了独特的创意。多语言支持也是亮点之一,包含中俄双语心理咨询等跨语言资源。数据集规模差异较大,从数千条到数百万条不等,满足不同研究需求。
使用方法
使用者可通过Hugging Face平台直接获取这些数据集,每个数据集都有专属的详情页面。数据集主要适用于自然语言处理任务,特别是指令微调、推理能力提升等研究方向。对于特色数据集如猫猫推理数据集,可用于研究非传统语言风格的模型表现。部分数据集仍在持续更新中,建议定期查看更新日志。使用前应仔细阅读各数据集的说明文档,了解其具体构建方法和适用场景。为支持数据集的持续发展,使用者可按照提供的引用格式在研究中予以标注。
背景与挑战
背景概述
Max's Awesome Datasets是由个人研究者Max Zhang创建并维护的一个多样化数据集集合,涵盖指令微调、推理、基础数据等多个领域。该数据集集合自2023年起逐步构建,并在Hugging Face平台上公开发布,旨在为自然语言处理(NLP)领域的研究者和开发者提供高质量、多用途的中文及多语言数据资源。其核心研究问题包括提升中文指令微调数据的规模与质量、探索多语言数据合成方法,以及优化推理数据集的构造逻辑。该数据集集合通过持续更新与社区反馈,已在NLP领域展现出一定的实用价值与影响力,尤其在中文任务微调和多语言翻译任务中提供了重要数据支持。
当前挑战
Max's Awesome Datasets在构建过程中面临多重挑战。领域问题方面,中文指令微调数据的高质量构造需解决数据来源分散、标注一致性差以及领域覆盖不均衡等问题;多语言翻译数据集的合成则需平衡语言对间的语义对齐与数据规模。构建过程中,数据清洗与增强的复杂性尤为突出,例如从原始数据中过滤噪声、合成多轮对话逻辑,以及确保推理数据集的逻辑连贯性。此外,数据规模的持续扩展与验证也需耗费大量计算与人力资源,尤其是在保证数据多样性与准确性的前提下。这些挑战共同构成了数据集持续优化与广泛应用的关键瓶颈。
常用场景
经典使用场景
在自然语言处理领域,Max's Awesome Datasets以其多样化的高质量数据集成为研究人员的重要资源。特别是其中的Chinese-Instruct数据集,凭借其大规模、多领域的特点,被广泛用于中文指令微调模型的训练与评估。该数据集不仅涵盖了通用领域的指令,还包含特定领域的专业指令,为模型的多任务学习提供了丰富素材。
解决学术问题
该数据集有效解决了中文自然语言处理中指令微调数据稀缺的问题。传统中文指令数据集往往规模有限或领域单一,而Chinese-Instruct通过整合3.6M+的高质量数据,为研究者提供了更全面的基准。特别是在低资源领域如医疗(Chinese-Medical-Instruct-1M)和农林渔牧(Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery),这些数据集显著降低了领域适应的研究门槛。
衍生相关工作
该系列数据集已催生多项创新研究,如在ACL等会议上发表的基于Chinese-Reasoning-Distil-Data的推理模型蒸馏方法。其医疗数据集被用于构建开源中医问答系统,而IndustryInstruction-Chinese则衍生出工业知识图谱构建工具。社区还基于这些数据集发起了多个低资源NLP挑战赛。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作