ArchCAD-400K|建筑信息模型数据集|计算机辅助设计数据集
收藏
Psych-101
Psych-101数据集是一个自然语言转录的心理学实验数据集,包含了160个心理学实验的逐次数据,涉及60,092名参与者,共记录了10,681,650次选择。数据集中的选择信息被封装在“<<”和“>>”标记中。数据集的主要用途是研究人类认知的基础模型。数据集提供了详细的实验文本、实验标识符和参与者标识符。数据集的语言为英语,使用Apache 2.0许可证。
huggingface 收录
HQ-GCM-RA-C1
HQ-GCM-RA-C1是由中医药广东实验室和南方科技大学联合创建的中医类风湿性关节炎(RA)数据集。该数据集涵盖了古代中医文献、现代临床研究、硕士和博士论文等多种来源,共计270,000条数据。数据集的内容包括问题-答案对、病理解释等,旨在为中医类风湿性关节炎的诊断和治疗提供全面的数据支持。数据集的创建过程包括从原始文献中提取信息、生成对话集、并通过滑动窗口方法增强上下文逻辑。该数据集的应用领域主要集中在中医类风湿性关节炎的诊断和治疗,旨在解决现有大语言模型在中医领域的数据稀缺问题,提升模型在中医诊断和治疗中的准确性和文化适应性。
arXiv 收录
M3FD
我们用校准良好的红外和光学传感器构建了一个同步成像系统,并收集了一个多场景多模态数据集 (M3FD),其中包括4个,177个对准的红外和可见光图像对以及23个,635个带注释的对象。该数据集涵盖了具有各种环境,照明,季节和天气的四个主要场景,具有广泛的像素变化范围。
OpenDataLab 收录
HRRSD
HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率(0.15-m至1.2-m)图像,涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集,分别包含5401、5417和10943张图像。此外,还提供了数据集的统计信息和基准测试结果。
github 收录
Huatuo-26M
Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。
arXiv 收录