Middlebury Dataset
收藏
- Middlebury Dataset首次发布,主要用于立体视觉研究,提供了高质量的立体图像对和相应的视差图。
- Middlebury Dataset进行了更新,增加了更多的图像对和视差图,进一步丰富了数据集的内容。
- Middlebury Dataset引入了新的评估标准,包括非遮挡区域、所有像素和非纹理区域的误差评估,提升了数据集的评估准确性。
- Middlebury Dataset再次更新,增加了高分辨率图像和多视角立体数据,扩展了数据集的应用范围。
- 1High-Accuracy Stereo Depth Maps Using Structured LightMiddlebury College · 2003年
- 2A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence AlgorithmsMiddlebury College · 2001年
- 3Evaluation of Stereo Matching Costs on Images with Radiometric DifferencesMiddlebury College · 2009年
- 4A Quantitative Evaluation of Confidence Measures for Stereo VisionMiddlebury College · 2012年
- 5Efficient Large-Scale Stereo MatchingMiddlebury College · 2010年
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录