five

PERSONA-CHAT|对话生成数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
对话生成
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/PERSONA-CHAT
下载链接
链接失效反馈
资源简介:
我们提出了 PERSONA-CHAT 数据集,这是一个新的对话数据集,由随机配对的众包工作人员之间的 162,064 个话语组成 并且每个人都要求扮演给定的角色(随机分配,由另一组众包创建)。配对的工人被要求自然地聊天,并在谈话中相互了解。这会产生有趣且引人入胜的对话,我们的代理可以尝试学习模仿。
提供机构:
OpenDataLab
创建时间:
2022-06-28
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

TEDS

TEDS(Tencent Chinese Corpus)是由腾讯公司发布的中文文本数据集,主要用于自然语言处理和文本分类任务。该数据集包含了大量的中文文本数据,涵盖了新闻、社交媒体、论坛等多种来源,适用于训练和评估中文语言模型和文本分类模型。

ai.tencent.com 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录