five

ticoAg/tiger-sft-zh

收藏
Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/tiger-sft-zh
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - zh --- [Tigerbot](https://github.com/TigerResearch/TigerBot) 开源项目中微调中文sft-zh数据合集 本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载 ## Usage ```python import datasets ds_sft = datasets.load_dataset('TigerResearch/sft_zh') ``` ## 文件细分 | 类型 | 语言 | 数据集文件 | 数量| | ------------ | ---- | -------------------------------------------------------------------------------------------------------------------------------- | ----------- | | alpaca 中文 | 中文 | [tigerbot-alpaca-zh-0.5m](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-alpaca-zh-0.5m.json) | 500k | | 百科问答 | 中文 | [tigerbot-wiki-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-wiki-qa-zh-1k.json) | 1k | | 名著问答 | 中文 | [tigerbot-book-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-book-qa-1k.json) | 1k | | 猜谜语 | 中文 | [tigerbot-riddle-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-riddle-qa-1k.json) | 1k | | 阅读理解 | 中文 | [tigerbot-superclue-c3-zh-5k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-superclue-c3-zh-5k.json) | 5k | | 问答 | 中文 | [tigerbot-hc3-zh-12k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-hc3-zh-12k.json) | 12k | | 知乎问答 | 中文 | [tigerbot-zhihu-zh-10k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-zhihu-zh-10k.json) | 10k | | 流萤sft | 中文 | [tigerbot-firefly-zh-20k](https://huggingface.co/datasets/TigerResearch/tigerbot-firefly-zh-20k) | 20k |

许可证:Apache-2.0 语言: - zh 本数据集为[Tigerbot](https://github.com/TigerResearch/TigerBot)开源项目中的中文监督微调(Supervised Fine-Tuning,SFT)数据集合集,囊括了本机构开源的其余中文监督微调数据集,无需重复下载。 ## 使用方法 python import datasets ds_sft = datasets.load_dataset('TigerResearch/sft_zh') ## 数据集细分 | 子集类型 | 语言 | 数据集文件 | 样本数量 | | ------------ | ---- | -------------------------------------------------------------------------------------------------------------------------------- | ----------- | | Alpaca中文子集 | 中文 | [tigerbot-alpaca-zh-0.5m](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-alpaca-zh-0.5m.json) | 500k | | 百科问答子集 | 中文 | [tigerbot-wiki-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-wiki-qa-zh-1k.json) | 1k | | 经典名著问答子集 | 中文 | [tigerbot-book-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-book-qa-1k.json) | 1k | | 灯谜问答子集 | 中文 | [tigerbot-riddle-qa-1k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-riddle-qa-1k.json) | 1k | | 阅读理解子集 | 中文 | [tigerbot-superclue-c3-zh-5k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-superclue-c3-zh-5k.json) | 5k | | 通用问答子集 | 中文 | [tigerbot-hc3-zh-12k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-hc3-zh-12k.json) | 12k | | 知乎问答子集 | 中文 | [tigerbot-zhihu-zh-10k](https://huggingface.co/datasets/TigerResearch/sft_zh/blob/main/tigerbot-zhihu-zh-10k.json) | 10k | | 流萤(Firefly)中文监督微例子集 | 中文 | [tigerbot-firefly-zh-20k](https://huggingface.co/datasets/TigerResearch/tigerbot-firefly-zh-20k) | 20k |
提供机构:
ticoAg
原始信息汇总

数据集概述

本数据集是Tigerbot开源项目中微调中文sft-zh数据合集,涵盖了本组织下开源的其他中文sft-中文-数据集,不需要重复下载。

使用方法

python import datasets ds_sft = datasets.load_dataset(TigerResearch/sft_zh)

文件细分

类型 语言 数据集文件 数量
alpaca 中文 中文 tigerbot-alpaca-zh-0.5m 500k
百科问答 中文 tigerbot-wiki-qa-1k 1k
名著问答 中文 tigerbot-book-qa-1k 1k
猜谜语 中文 tigerbot-riddle-qa-1k 1k
阅读理解 中文 tigerbot-superclue-c3-zh-5k 5k
问答 中文 tigerbot-hc3-zh-12k 12k
知乎问答 中文 tigerbot-zhihu-zh-10k 10k
流萤sft 中文 tigerbot-firefly-zh-20k 20k
搜集汇总
数据集介绍
main_image_url
构建方式
ticoAg/tiger-sft-zh数据集由Tigerbot开源项目精心构建,整合了多个中文sft-zh数据集,旨在为研究者提供一个全面且高效的中文语言模型微调资源。该数据集涵盖了多种类型的中文数据,包括alpaca中文、百科问答、名著问答、猜谜语、阅读理解、问答以及知乎问答等,确保了数据的多样性和广泛性。通过将这些数据集统一整合,避免了重复下载,极大地方便了研究者的使用。
特点
ticoAg/tiger-sft-zh数据集的显著特点在于其多样化的数据类型和丰富的数据量。数据集不仅包含了基础的alpaca中文数据,还涵盖了百科、名著、谜语等多种问答形式,以及阅读理解和知乎问答等实际应用场景的数据。这种多样性使得该数据集在训练语言模型时能够有效提升模型的泛化能力和实际应用效果。此外,数据集的整合方式也体现了高效性和便捷性,为研究者提供了极大的便利。
使用方法
使用ticoAg/tiger-sft-zh数据集非常简便,研究者可以通过Python的datasets库直接加载该数据集。具体操作如下:首先,导入datasets库;然后,使用load_dataset函数加载'TigerResearch/sft_zh'数据集即可。数据集的文件细分明确,研究者可以根据需要选择特定的数据类型进行加载和使用。这种简洁的使用方式使得该数据集在各类中文语言模型微调任务中具有广泛的应用前景。
背景与挑战
背景概述
ticoAg/tiger-sft-zh数据集是由Tigerbot开源项目团队创建的中文微调数据合集,旨在为自然语言处理领域提供高质量的中文语料资源。该数据集涵盖了多种类型的中文数据,包括百科问答、名著问答、猜谜语、阅读理解等,总计超过50万条数据。这些数据集的创建不仅丰富了中文自然语言处理的研究资源,也为相关领域的模型训练和评估提供了坚实的基础。Tigerbot项目团队通过整合和优化这些数据,显著提升了中文语言模型的性能和应用范围,对推动中文自然语言处理技术的发展具有重要意义。
当前挑战
ticoAg/tiger-sft-zh数据集在构建过程中面临多项挑战。首先,数据来源的多样性要求团队在数据清洗和标准化方面投入大量精力,以确保数据的质量和一致性。其次,不同类型的数据集在格式和内容上存在显著差异,如何有效地整合这些数据并进行统一处理是一个技术难题。此外,随着数据规模的扩大,如何高效地存储、管理和更新数据集也成为了一个重要的挑战。最后,确保数据集的版权和使用许可符合相关法律法规,避免潜在的法律风险,也是团队必须面对的问题。
常用场景
经典使用场景
ticoAg/tiger-sft-zh数据集在自然语言处理领域中,主要用于中文语言模型的微调与优化。其经典使用场景包括但不限于:通过alpaca中文数据集进行指令遵循任务的训练,利用百科问答和名著问答数据集提升模型在特定领域知识上的表现,以及通过阅读理解和问答数据集增强模型在复杂语境下的理解与生成能力。
解决学术问题
ticoAg/tiger-sft-zh数据集解决了中文自然语言处理中模型在特定领域知识应用和复杂语境理解上的不足。通过提供多样化的中文问答和阅读理解数据,该数据集有助于提升模型在处理中文文本时的准确性和适应性,从而推动中文语言模型在学术研究中的应用和发展。
衍生相关工作
ticoAg/tiger-sft-zh数据集的发布激发了众多相关研究工作,包括但不限于:基于该数据集的中文语言模型微调方法研究,针对特定领域(如教育、医疗)的问答系统开发,以及中文文本生成模型的优化。这些研究不仅提升了中文自然语言处理的技术水平,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作