全球台风路径数据集(2018)|台风路径数据集|灾害影响评估数据集
收藏HQ-GCM-RA-C1
HQ-GCM-RA-C1是由中医药广东实验室和南方科技大学联合创建的中医类风湿性关节炎(RA)数据集。该数据集涵盖了古代中医文献、现代临床研究、硕士和博士论文等多种来源,共计270,000条数据。数据集的内容包括问题-答案对、病理解释等,旨在为中医类风湿性关节炎的诊断和治疗提供全面的数据支持。数据集的创建过程包括从原始文献中提取信息、生成对话集、并通过滑动窗口方法增强上下文逻辑。该数据集的应用领域主要集中在中医类风湿性关节炎的诊断和治疗,旨在解决现有大语言模型在中医领域的数据稀缺问题,提升模型在中医诊断和治疗中的准确性和文化适应性。
arXiv 收录
riotu-lab/Synthetic-UAV-Flight-Trajectories
该数据集包含超过5000条随机无人机(UAV)轨迹,这些轨迹是在20小时的飞行时间内收集的,主要用于训练AI模型,如轨迹预测应用。数据集通过自动化管道生成和预处理无人机合成轨迹,使其可以直接用于AI模型训练。数据集的特点是参数化的轨迹,遵循预定义的模式,特别是圆形和无限路径。数据集的结构包括数据字段,如时间戳和无人机的3D位置(x, y, z坐标)。
hugging_face 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录
Loie/VGGSound
VGGSound是一个音频-视觉对应数据集,包含从YouTube视频中提取的短音频片段。该数据集包含310多个类别的音频,涵盖多种具有挑战性的声学环境和噪声特征;包含超过200,000个视频,这些视频都是在自然环境中捕捉的,音频和视频内容具有对应关系;数据集总时长超过550小时,每个片段长度为10秒。
hugging_face 收录
Market-1501
1501市场的数据集是在清华大学的一家超市前收集的。总共使用了六个摄像头,其中包括5个高分辨率摄像头和一个低分辨率摄像头。不同摄像机之间存在视场重叠。总体而言,该数据集包含32,668带注释的1,501身份的边界框。在这个开放系统中,每个身份的图像最多由六个摄像机捕获。我们确保每个带注释的身份都存在于至少两个摄像机中,以便可以执行跨摄像机搜索。1501市场的数据集有三个特色属性: 首先,我们的数据集使用可变形零件模型 (DPM) 作为行人检测器。 其次,除了真正界框外,我们还提供了误报检测结果。 第三,每个标识在每个摄像机下可能具有多个图像。在跨摄像头搜索期间,每个身份都有多个查询和多个地面真相。
OpenDataLab 收录