Maxs Awesome Datasets

github2025-04-23 更新2025-04-24 收录

下载链接：

https://github.com/Mxoder/Maxs-Awesome-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这个仓库收录了我个人自建的数据集，所有数据集均已上传至 Hugging Face，欢迎使用和提出建议。

This repository contains my personally constructed datasets, all of which have been uploaded to Hugging Face. Welcome to use and provide suggestions.

创建时间：

2025-04-21

原始信息汇总

Maxs Awesome Datasets 数据集概述

简介

该仓库收录个人自建数据集，所有数据集均已上传至Hugging Face。
数据集持续更新，涵盖多种类型和领域。

精选数据集 (Highlighted)

Chinese-Instruct 🚧
- 大规模中文指令微调数据集，高质量、多指令来源、大规模。
- 规模：3.6M+
- 链接：https://huggingface.co/datasets/Mxode/Chinese-Instruct
Meow-Reasoning-100K
- 猫猫语气的推理数据集。
- 规模：100K
- 链接：https://huggingface.co/datasets/Mxode/Meow-Reasoning-100K
Chinese-Reasoning-Distil-Data 🚧
- 中文推理蒸馏数据集，全新构造。
- 规模：56K
- 链接：https://huggingface.co/datasets/Mxode/Chinese-Reasoning-Distil-Data
BiST 🚧
- 大规模中英双语翻译数据集。
- 规模：57M
- 链接：https://huggingface.co/datasets/Mxode/BiST
Chinese-Medical-Instruct-1M
- 中文医疗指令微调数据集。
- 规模：1M
- 链接：https://huggingface.co/datasets/Mxode/Chinese-Medical-Instruct-1M

指令微调数据集 (SFT)

IndustryInstruction-Chinese
- 中文行业指令数据集。
- 规模：1M+
- 链接：https://huggingface.co/datasets/Mxode/IndustryInstruction-Chinese
Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery
- 中文农林渔牧问答数据集。
- 规模：1M+
- 链接：https://huggingface.co/datasets/Mxode/Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery

推理数据集 (Reasoning)

Chinese-OpenQA-Reasoning-50K
- 中文开放式问答推理数据集。
- 规模：50K
- 链接：https://huggingface.co/datasets/Mxode/Chinese-OpenQA-Reasoning-50K

基础数据集

Fineweb-Edu-Chinese-V2.1-merged-score4_5
- Fineweb-Edu-Chinese-V2.1的评分4~5数据子集。
- 规模：17M+
- 链接：https://huggingface.co/datasets/Mxode/Fineweb-Edu-Chinese-V2.1-merged-score4_5

其他数据集

Psychologist-psiholog-zh_ru
- 中俄双语心理咨询数据集。
- 规模：17K+
- 链接：https://huggingface.co/datasets/Mxode/Psychologist-psiholog-zh_ru
StackOverflow-QA-C-Language-40k
- StackOverflow上关于C语言的问答数据集。
- 规模：40K
- 链接：https://huggingface.co/datasets/Mxode/StackOverflow-QA-C-Language-40k

搜集汇总

数据集介绍

构建方式

Max's Awesome Datasets是一个由个人构建的多领域数据集集合，其构建过程体现了严谨的数据科学方法。数据集主要通过采集真实语料，经过多步骤的过滤、清洗、合成和校验流程完成构建。部分数据集是在现有开源数据集基础上进行二次开发，如对Firefly-1.1M数据集的清洗和增强，或对IndustryInstruction数据集的重新整理。值得注意的是，该集合中的推理数据集采用了创新的R1格式构建，并特别设计了猫猫语气的独特表达方式。

特点

该数据集集合最显著的特点是领域覆盖广泛且具有创新性，包含医疗、农业、编程、数学等多个专业领域。数据质量把控严格，如中文医疗指令数据集确保回复依赖于真实参考源，数学数据集所有答案均经过正确性校验。集合中不乏特色数据集，如完全以猫猫语气构建的推理数据集，展现了独特的创意。多语言支持也是亮点之一，包含中俄双语心理咨询等跨语言资源。数据集规模差异较大，从数千条到数百万条不等，满足不同研究需求。

使用方法

使用者可通过Hugging Face平台直接获取这些数据集，每个数据集都有专属的详情页面。数据集主要适用于自然语言处理任务，特别是指令微调、推理能力提升等研究方向。对于特色数据集如猫猫推理数据集，可用于研究非传统语言风格的模型表现。部分数据集仍在持续更新中，建议定期查看更新日志。使用前应仔细阅读各数据集的说明文档，了解其具体构建方法和适用场景。为支持数据集的持续发展，使用者可按照提供的引用格式在研究中予以标注。

背景与挑战

背景概述

Max's Awesome Datasets是由个人研究者Max Zhang创建并维护的一个多样化数据集集合，涵盖指令微调、推理、基础数据等多个领域。该数据集集合自2023年起逐步构建，并在Hugging Face平台上公开发布，旨在为自然语言处理（NLP）领域的研究者和开发者提供高质量、多用途的中文及多语言数据资源。其核心研究问题包括提升中文指令微调数据的规模与质量、探索多语言数据合成方法，以及优化推理数据集的构造逻辑。该数据集集合通过持续更新与社区反馈，已在NLP领域展现出一定的实用价值与影响力，尤其在中文任务微调和多语言翻译任务中提供了重要数据支持。

当前挑战

Max's Awesome Datasets在构建过程中面临多重挑战。领域问题方面，中文指令微调数据的高质量构造需解决数据来源分散、标注一致性差以及领域覆盖不均衡等问题；多语言翻译数据集的合成则需平衡语言对间的语义对齐与数据规模。构建过程中，数据清洗与增强的复杂性尤为突出，例如从原始数据中过滤噪声、合成多轮对话逻辑，以及确保推理数据集的逻辑连贯性。此外，数据规模的持续扩展与验证也需耗费大量计算与人力资源，尤其是在保证数据多样性与准确性的前提下。这些挑战共同构成了数据集持续优化与广泛应用的关键瓶颈。

常用场景

经典使用场景

在自然语言处理领域，Max's Awesome Datasets以其多样化的高质量数据集成为研究人员的重要资源。特别是其中的Chinese-Instruct数据集，凭借其大规模、多领域的特点，被广泛用于中文指令微调模型的训练与评估。该数据集不仅涵盖了通用领域的指令，还包含特定领域的专业指令，为模型的多任务学习提供了丰富素材。

解决学术问题

该数据集有效解决了中文自然语言处理中指令微调数据稀缺的问题。传统中文指令数据集往往规模有限或领域单一，而Chinese-Instruct通过整合3.6M+的高质量数据，为研究者提供了更全面的基准。特别是在低资源领域如医疗（Chinese-Medical-Instruct-1M）和农林渔牧（Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery），这些数据集显著降低了领域适应的研究门槛。

衍生相关工作

该系列数据集已催生多项创新研究，如在ACL等会议上发表的基于Chinese-Reasoning-Distil-Data的推理模型蒸馏方法。其医疗数据集被用于构建开源中医问答系统，而IndustryInstruction-Chinese则衍生出工业知识图谱构建工具。社区还基于这些数据集发起了多个低资源NLP挑战赛。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集