five

llamafactory/alpaca_gpt4_zh|文本生成数据集|问答系统数据集

收藏
hugging_face2024-06-07 更新2024-06-12 收录
文本生成
问答系统
下载链接:
https://hf-mirror.com/datasets/llamafactory/alpaca_gpt4_zh
下载链接
链接失效反馈
资源简介:
该数据集包含用于文本生成和问答任务的指令、输入和输出字段,语言为中文。数据集来源于https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM,并移除了6,103个截断的示例。数据集规模在10,000到100,000之间,适用于LLaMA Factory,使用时需指定`dataset: alpaca_gpt4_zh`。

该数据集包含用于文本生成和问答任务的指令、输入和输出字段,语言为中文。数据集来源于https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM,并移除了6,103个截断的示例。数据集规模在10,000到100,000之间,适用于LLaMA Factory,使用时需指定`dataset: alpaca_gpt4_zh`。
提供机构:
llamafactory
原始信息汇总

数据集概述

数据集特征

  • instruction:数据类型为字符串。
  • input:数据类型为字符串。
  • output:数据类型为字符串。

许可证

  • Apache-2.0

任务类别

  • 文本生成
  • 问答

语言

  • 中文

标签

  • llama-factory

大小分类

  • 10K<n<100K
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录