Flickr30k
收藏
- Flickr30k数据集首次发布,该数据集包含31,783张图片,每张图片配有5个独立的英文描述,旨在为图像描述生成任务提供丰富的标注数据。
- Flickr30k被广泛应用于图像描述生成模型的训练与评估,成为该领域的重要基准数据集之一,推动了深度学习在自然语言处理与计算机视觉交叉领域的发展。
- 研究者们开始利用Flickr30k进行多模态学习研究,探索图像与文本之间的语义关联,为后续的视觉问答和跨模态检索任务奠定了基础。
- Flickr30k被扩展为多语言版本,支持多种语言的图像描述,进一步推动了跨语言图像描述生成的研究。
- Flickr30k在图像描述生成领域的基准测试中继续发挥重要作用,成为评估生成模型多样性和准确性的关键数据集之一。
- Flickr30k被用于训练和评估大规模预训练模型(如CLIP和BLIP),在多模态理解和生成任务中展现了其持续的价值。
- 1Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence ModelsStanford University · 2015年
- 2Deep Visual-Semantic Alignments for Generating Image DescriptionsStanford University · 2015年
- 3Show, Attend and Tell: Neural Image Caption Generation with Visual AttentionUniversity of Montreal · 2015年
- 4Bottom-Up and Top-Down Attention for Image Captioning and Visual Question AnsweringMicrosoft Research · 2018年
- 5Unified Vision-Language Pre-Training for Image Captioning and VQAMicrosoft Research · 2020年
AutoCaption
这个数据集包含了两个子集,用于不同的视频理解任务训练和评估。sft_data 子集旨在为视频语言模型的监督微调提供训练数据,包含9419条记录。每个记录包含视频文件名和对话列表,对话列表中包含每个对话回合的发言者和消息内容。mcts_vcb 子集用于MCTS VCB评估,但目前没有记录。每个记录包含视频文件名和关键点列表,关键点列表中包含关键点描述、分类和阈值标准。
huggingface 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录
BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
Tox21
Tox21数据集包含超过12,000种化学物质的生物活性数据,主要用于评估化学物质对12种不同生物学终点的毒性,包括核受体活性和应激反应。
tripod.nih.gov 收录