five

apache-hadoop-mddocs-chatml

收藏
Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/sadnblueish/apache-hadoop-mddocs-chatml
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是针对Apache Hadoop v3.4.3领域知识的AI认知合成SFT数据集,采用多步骤Markdown文档处理流程,通过Ollama托管的Deepseek-Coder-16B:Q4模型增强生成。数据集以ChatML格式存储,并已用于微调Qwen2.5-Coder-7B模型。数据来源于Apache Hadoop的GitHub仓库(branch-3.4.3分支)。数据集包含训练集和测试集划分,特征字段包含参考键。数据集适用于问答、特征提取和文本生成等任务,内容为英文,规模在1K到10K条之间,采用Apache-2.0许可证。
创建时间:
2026-03-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作