Data from: Model misspecification confounds the estimation of rates and exaggerates their time dependency
收藏Visual Genome
Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.
Papers with Code 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
553个真实世界的半结构化访谈数据集
该数据集包含553个真实世界的半结构化访谈,每个访谈都与临床诊断结果配对,用于评估抑郁症、焦虑症和创伤后应激障碍等精神健康问题的早期诊断。数据集来自美国多个行为研究项目,参与者回答了五个关于日常生活、挑战性事件、应对策略、不愉快事件和积极经历的标准化问题。访谈被记录并转录,每个访谈的平均长度约为2,955个单词。该数据集旨在为自然语言处理模型提供真实且具有生态效度的基准,以评估其从自然语言中推断精神健康问题的能力。
arXiv 收录
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。
阿里云天池 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录