基于GPT4的中文对话增强数据|自然语言处理数据集|对话系统数据集

魔搭社区2025-09-28 更新2024-05-15 收录

自然语言处理

对话系统

下载链接：

https://modelscope.cn/datasets/zky001/alpaca

下载链接

链接失效反馈

资源简介：

数据集文件元信息以及数据文件，请浏览“数据集文件”页面获取。当前数据集卡片使用的是默认模版，数据集的贡献者未提供更加详细的数据集介绍，但是您可以通过如下GIT Clone命令，或者ModelScope SDK来下载数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-04-20

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AlphaFold Protein Structure Database

AlphaFold是由Google DeepMind开发的AI系统，可从氨基酸序列预测蛋白质的三维结构，其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所（EMBL-EBI）合作创建了AlphaFold Protein Structure Database，免费向科学界开放，现已涵盖超过2亿条UniProt蛋白序列，包含人类及47种重要生物的蛋白质组。

alphafold.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集，由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成，旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据，经过精心筛选和处理，旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别（ASR）和自动语音翻译（AST）等领域的研究，有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录