CareCall for Seniors|老年关怀数据集|人工智能对话数据集
收藏数据集概述
数据集名称
- CareCall for Seniors
数据集描述
- 该数据集包含韩国的“角色指定”开放领域对话,专注于照顾老年人领域,由大规模语言模型生成,并得到人类支持。
数据集组成部分
-
carecall_filtered_10k.json
- 包含经过过滤的对话数据,每条对话包含唯一标识符、系统或用户的角色、文本内容以及是否超出角色规范的标记。
-
carecall_feedback_100.json
- 包含通过人机交互阶段的人工对话数据,不包含超出角色规范的语句,因为所有语句都经过人工修正。
-
carecall_translated_samples.json
- 提供从
carecall_filtered_10k
和carecall_feedback_100.json
中人工翻译的200个对话样本,内容为英文。
- 提供从
数据统计
-
carecall_filtered_10k
- 对话类型:过滤
- 对话数量:10,500
- 对话轮数:57,091
- 平均每对话轮数:5.4
- 正面例子数量:23,212
- 负面例子数量:10,500
-
carecall_feedback_100
- 对话类型:反馈
- 对话数量:100
- 对话轮数:1,838
- 平均每对话轮数:18.4
- 正面例子数量:969
- 负面例子数量:0
数据集使用许可
- 该数据集根据CC-BY-NC-SA 4.0许可发布。

ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录