Cornell Natural Language Visual Reasoning Dataset
收藏github2023-10-01 更新2024-05-31 收录
下载链接:
https://github.com/Acusense/open-datasets
下载链接
链接失效反馈官方服务:
资源简介:
康奈尔自然语言视觉推理数据集,用于测试和开发自然语言处理和视觉推理的模型。
The Cornell Natural Language Visual Reasoning Dataset is designed for testing and developing models in natural language processing and visual reasoning.
创建时间:
2017-04-25
原始信息汇总
数据集概述
通用数据集
- Cornell Natural Language Visual Reasoning Dataset
- 类型:单个数据集
- 访问:免费
- Structured Wikipedia Data
- 类型:集合
- 访问:免费
- 许可证:GNU License
- UCI Machine Learning Repository
- 类型:集合
- 访问:免费
- Socrata Open Datasets
- 类型:集合
- 访问:免费
- Datasets for Data Mining and Data Science
- 类型:集合
- 访问:免费
- List of datasets for machine learning research
- 类型:集合
- 访问:免费
- Lexical Database for English
- 类型:单个数据集
- 访问:免费
- Wolfram Data Repository
- 类型:集合
- 访问:免费
农业数据集
- U.S. Department of Agricultures PLANTS Database
- 类型:单个数据集
- 访问:免费
- U.S. Department of Agricultures Nutrient Database
- 类型:集合
- 访问:免费
生物学数据集
- 1000 Genomes
- 类型:集合
- 访问:免费
- American Gut (Microbiome Project)
- 类型:集合
- 访问:免费
- Broad Bioimage Benchmark Collection (BBBC)
- 类型:集合
- 访问:免费
- Broad Cancer Cell Line Encyclopedia (CCLE)
- 类型:集合
- 访问:需登录
- Cell Image Library
- 类型:集合
- 访问:免费
- Complete Genomics Public Data
- 类型:集合
- 访问:免费
- EBI ArrayExpress
- 类型:集合
- 访问:免费
- EBI Protein Data Bank in Europe
- 类型:集合
- 访问:免费
- Electron Microscopy Pilot Image Archive (EMPIAR)
- 类型:集合
- 访问:免费
- ENCODE project
- 类型:集合
- 访问:免费
- Ensembl Genomes
- 类型:集合
- 访问:免费
- Gene Expression Omnibus (GEO)
- 类型:集合
- 访问:免费
- Gene Ontology (GO)
- 类型:集合
- 访问:免费
- Global Biotic Interactions (GloBI)
- 类型:单个数据集
- 访问:免费
- Harvard Medical School (HMS) LINCS Project
- 类型:集合
- 访问:免费
- Human Genome Diversity Project
- 类型:单个数据集
- 访问:免费
- Human Microbiome Project (HMP)
- 类型:集合
- 访问:免费
- ICOS PSP Benchmark
- 类型:集合
- 访问:免费
- International HapMap Project
- 类型:单个数据集
- 访问:免费
- Journal of Cell Biology DataViewer
- 类型:集合
- 访问:免费
- MIT Cancer Genomics Data
- 类型:集合
- 访问:免费
- NCBI Proteins
- 类型:集合
- 访问:需登录
- NCBI Taxonomy
- 类型:单个数据集
- 访问:需登录
- NCI Genomic Data Commons
- 类型:集合
- 访问:免费
- NIH Microarray data
- 类型:集合
- 访问:免费
- OpenSNP genotypes data
- 类型:集合
- 访问:需登录
- Pathguid - Protein-Protein Interactions Catalog
- 类型:集合
- 访问:免费
- Protein Data Bank
- 类型:集合
- 访问:需登录
- Psychiatric Genomics Consortium
- 类型:集合
- 访问:需登录
- PubChem Project
- 类型:集合
- 访问:免费
- PubGene (now Coremine Medical)
- 类型:集合
- 访问:需登录
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 类型:集合
- 访问:需登录
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 类型:集合
- 访问:免费
- Sequence Read Archive(SRA)
- 类型:集合
- 访问:免费
- Stowers Institute Original Data Repository
- 类型:集合
- 访问:免费
- Systems Science of Biological Dynamics (SSBD) Database
- 类型:集合
- 访问:免费
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 类型:集合
- 访问:免费
- The Catalogue of Life
- 类型:集合
- 访问:免费
- The Personal Genome Project
- 类型:集合
- 访问:需登录
- UCSC Public Data
- 类型:集合
- 访问:免费
- UniGene
- 类型:集合
- 访问:需登录
- Universal Protein Resource (UnitProt)
- 类型:集合
- 访问:免费
气候/天气数据集
- Actuaries Climate Index
- 类型:单个数据集
- 访问:需登录
- Australian Weather
- 类型:集合
- 访问:免费
- Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
- 类型:集合
- 访问:需登录
- Brazilian Weather - Historical data (In Portuguese)
- 类型:集合
- 访问:需登录
- Canadian Meteorological Centre
- 类型:集合
- 访问:免费
- Climate Data from UEA (updated monthly)
- 类型:集合
- 访问:免费
- European Climate Assessment & Dataset
- 类型:集合
- 访问:免费
- Global Climate Data Since 1929
- 类型:集合
- 访问:免费
- NASA Global Imagery Browse Services
- 类型:集合
- 访问:需登录
- NOAA Bering Sea Climate
- 类型:集合
- 访问:免费
- NOAA Climate Datasets
- 类型:集合
- 访问:免费
- NOAA Realtime Weather Models
- 类型:集合
- 访问:免费
- NOAA SURFRAD Meteorology and Radiation Datasets
- 类型:集合
- 访问:免费
- The World Bank Open Data Resources for Climate Change
- 类型:集合
- 访问:免费
- UEA Climatic Research Unit
- 类型:网站不可用
- WorldClim - Global Climate Data
- 类型:单个数据集
- 访问:免费
- WU Historical Weather Worldwide
- 类型:集合
- 访问:需登录
复杂网络数据集
- AMiner Citation Network Dataset
- 类型:单个数据集
- 访问:免费
- CrossRef DOI URLs
- 类型:单个数据集
- 访问:需登录
- DBLP Citation dataset
- 类型:单个数据集
- 访问:需登录
- DIMACS Road Networks Collection
- 类型:集合
- 访问:免费
- NBER Patent Citations
- 类型:集合
- 访问:免费
- Network Repository with Interactive Exploratory Analysis Tools
- 类型:集合
- 访问:需登录
- NIST complex networks data collection
- 类型:集合
- 访问:免费
- Protein-protein interaction network
- 类型:集合
- 访问:免费
- PyPI and Maven Dependency Network
- 类型:集合
- 访问:免费
- Scopus Citation Database
- 类型:单个数据集
- 访问:付费
- Small Network Data
- 类型:集合
- 访问:免费
- Stanford GraphBase (Steven Skiena)
- 类型:集合
- 访问:免费
- Stanford Large Network Dataset Collection
- 类型:集合
- 访问:免费
- Stanford Longitudinal Network Data Sources
- 类型:集合
- 访问:免费
- The Koblenz Network Collection
- 类型:集合
- 访问:免费
- The Laboratory for Web Algorithmics (UNIMI)
- 类型:集合
- 访问:免费
- UCI Network Data Repository
- 类型:集合
- 访问:免费
- UFL sparse matrix collection
- 类型:集合
- 访问:免费
- WSU Graph Database
- 类型:集合
- 访问:免费
计算机网络数据集
- 3.5B Web Pages from CommonCrawl 2012
- 类型:集合
- 访问:需登录
- 53.5B Web clicks of 100K users in Indiana Univ.
- 类型:单个数据集
- 访问:需登录
- CAIDA Internet Datasets
- 类型:集合
- 访问:免费
- ClueWeb09 - 1B web pages
- 类型:单个数据集
- 访问:需登录
- ClueWeb12 - 733M web pages
- 类型:单个数据集
- 访问:需登录
- CommonCrawl Web Data over 7 years
- 类型:集合
- 访问:付费
- CRAWDAD Wireless datasets from Dartmouth Univ.
- 类型:集合
- 访问:需登录
- Criteo click-through data
- 类型:集合
- 访问:免费
- OONI: Open Observatory of Network Interference - Internet censorship data
- 类型:集合
- 访问:免费
- Open Mobile Data by MobiPerf
- 类型:集合
- 访问:付费
- Rapid7 Sonar Internet Scans
- 类型:单个数据集
- 访问:免费
- UCSD Network Telescope, IPv4 /8 net
- 类型:集合
- 访问:付费
数据挑战数据集
- Bruteforce Database
- 类型:集合
- 访问:付费
- Challenges in Machine Learning
- 类型:集合
- 访问:免费
- CrowdANALYTIX dataX
- 类型:集合
- 访问:需登录
- D4D Challenge of Orange
- 类型:集合
- 访问:需登录
- DrivenData Competitions for Social Good
- 类型:集合
- 访问:需登录
- ICWSM Data Challenge (since 2009)
- 类型:集合
- 访问:需登录
- Kaggle Competition Data
- 类型:集合
- 访问:需登录
- KDD Cup by Tencent 2012
- 类型:集合
- 访问:需登录
- Localytics Data Visualization Challenge
- 类型:集合
- 访问:付费
- Netflix Prize
- 类型:单个数据集
- 访问:免费
- Space Apps Challenge
- 类型:单个数据集
- 访问:免费
- Telecom Italia Big Data Challenge
- 类型:集合
- 访问:需登录
- TravisTorrent Dataset - MSR2017 Mining Challenge
- 类型:集合
- 访问:免费
- Yelp Dataset Challenge
- 类型:单个数据集
- 访问:需登录
地球科学数据集
- AQUASTAT - Global water resources and uses
- 类型:集合
- 访问:免费
- BODC - marine data of ~22K vars
- 类型:集合
- 访问:需登录
- Earth Models
- 类型:集合
- 访问:需登录
- EOSDIS - NASAs earth observing system data
- 类型:集合
- 访问:需登录
- Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements
- 类型:集合
- 访问:免费
- Marinexplore - Open Oceanographic Data
- 类型:集合
- 访问:需登录
- Smithsonian Institution Global Volcano and Eruption Database
- 类型:集合
- 访问:免费
- USGS Earthquake Archives
- 类型:集合
- 访问:免费
经济学数据集
- American Economic Association (AEA)
- 类型:集合
- 访问:需登录
- EconData from UMD
- 类型:集合
- 访问:需登录
- Economic Freedom of the World Data
- 类型:集合
- 访问:付费
- Historical MacroEconomic Statistics
- 类型:集合
- 访问:免费
- International Economics Database
- 类型:集合
- 访问:免费
- International Trade Statistics
- 类型:集合
- 访问:免费
- Internet Product Code Database
- 类型:集合
- 访问:需登录
- Joint External Debt Data Hub
- 类型:集合
- 访问:免费
- Jon Haveman International Trade Data Links
- 类型:集合
- 访问:免费
- OpenCorporates Database of Companies in the World
- 类型:集合
- 访问:需登录
- Our World in Data
- 类型:集合
- 访问:免费
- SciencesPo World Trade Gravity Datasets
- 类型:集合
- 访问:免费
- The Atlas of Economic Complexity
- 类型:集合
- 访问:免费
- The Center for International Data
- 类型:集合
- 访问:免费
- The Observatory of Economic Complexity
- 类型:集合
- 访问:免费
- UN Commodity Trade Statistics
- 类型:集合
- 访问:需登录
- UN Human Development Reports
- 类型:集合
- 访问:免费
教育数据集
- College Scorecard Data
- 类型:单个数据集
- 访问:免费
- Student Data from Free Code Camp
- 类型:单个数据集
- 访问:需登录
能源数据集
- AMPds
- 类型:单个数据集
- 访问:免费
- COMBED
- 类型:单个数据集
- 访问:免费
- DRED
- 类型:集合
- 访问:需登录
- ECO
- 类型:单个数据集
- 访问:免费
- EIA
- 类型:集合
- 访问:免费
- HES
- 类型:单个数据集
- 访问:免费
- HFED
- 类型:集合
- 访问:免费
- iAWE
- 类型:单个数据集
- 访问:免费
- PLAID
- 类型:单个数据集
- 访问:免费
- REDD
- 类型:集合
- 访问:免费
- Tracebase
- 类型:集合
- 访问:免费
- UK-DALE
- 类型:单个数据集
- 访问:免费
- WHITED
- 类型:单个数据集
- 访问:免费
金融数据集
- CBOE Futures Exchange
- 类型:集合
- 访问:需登录
- Google Finance
- 类型:集合
- 访问:需登录
- Google Trends
- 类型:集合
- 访问:
搜集汇总
数据集介绍

构建方式
Cornell Natural Language Visual Reasoning Dataset(NLVR)是一个专注于自然语言与视觉推理的数据集,旨在通过结合文本描述与图像内容,推动多模态推理研究的发展。该数据集的构建基于人工标注的方式,研究人员设计了一系列复杂的场景描述,并配以相应的图像,确保每对文本与图像之间存在明确的逻辑关系。数据集中的每个样本都经过严格的验证,以确保其准确性和一致性。
特点
NLVR数据集的特点在于其多模态特性,结合了自然语言与视觉信息,提供了丰富的推理任务。数据集中的文本描述涵盖了多种复杂的逻辑关系,如图像中的物体位置、属性及相互关系等。每张图像都经过精心设计,以确保其与文本描述的对应关系明确且具有挑战性。此外,数据集还提供了多样化的场景和任务类型,能够有效支持多模态推理模型的训练与评估。
使用方法
NLVR数据集的使用方法主要围绕多模态推理任务展开。研究人员可以通过加载数据集中的文本描述与图像对,构建模型以理解文本与图像之间的逻辑关系。数据集提供了标准化的评估指标,如准确率、召回率等,便于模型性能的量化分析。此外,数据集还支持多种任务类型,如视觉问答、图像描述生成等,能够满足不同研究需求。使用该数据集时,建议结合预训练的多模态模型,以提升推理效果。
背景与挑战
背景概述
Cornell Natural Language Visual Reasoning Dataset(NLVR)是由康奈尔大学自然语言处理实验室于2015年推出的一个多模态推理数据集。该数据集旨在推动自然语言处理与计算机视觉的交叉研究,特别是针对语言与视觉信息的联合推理任务。NLVR数据集的核心研究问题是通过自然语言描述来验证图像内容的真实性,从而促进机器在理解语言与视觉信息之间的复杂关系方面的能力。该数据集在视觉问答、图像描述生成和多模态推理等领域具有广泛的影响力,为研究者提供了一个标准化的基准测试平台。
当前挑战
NLVR数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,该数据集旨在解决自然语言与视觉信息的联合推理问题,这要求模型不仅能够理解语言描述,还需具备对图像内容的深度理解能力。这种跨模态的推理任务对模型的语义理解、视觉特征提取以及多模态融合提出了极高的要求。其次,在数据构建过程中,如何确保语言描述与图像内容之间的精确对应关系是一个关键挑战。数据集的创建需要大量的人工标注,以确保每个语言描述与图像内容的匹配度,这一过程既耗时又容易引入误差,进一步增加了数据集的构建难度。
常用场景
经典使用场景
Cornell Natural Language Visual Reasoning Dataset(NLVR)广泛应用于自然语言处理与计算机视觉的交叉领域,尤其是在视觉推理任务中。该数据集通过提供自然语言描述与对应图像对,支持模型在理解语言的同时进行视觉推理。经典的使用场景包括视觉问答(VQA)和图像描述生成,模型需要根据文本描述判断图像内容的真实性或生成符合描述的图像。
实际应用
在实际应用中,NLVR数据集为智能助手、自动驾驶和医疗影像分析等领域提供了重要的技术支持。例如,在智能助手中,模型可以利用该数据集进行视觉推理,帮助用户理解复杂的图像内容;在自动驾驶中,模型可以通过语言描述与视觉信息的结合,提升对环境的理解能力。
衍生相关工作
NLVR数据集衍生了许多经典的多模态研究工作,例如基于Transformer的多模态模型(如ViLT、VL-BERT)和视觉推理框架(如MAC网络)。这些工作通过引入NLVR数据集,显著提升了模型在视觉问答、图像描述生成等任务中的表现,推动了多模态学习领域的技术进步。
以上内容由遇见数据集搜集并总结生成



