dreamlip_long_captions|图像描述数据集|多模态学习数据集
收藏数据集卡片 DreamLIP-30M
数据集描述
数据集概述
DreamLIP-Long-Captions 是一个包含约 30M 图像注释的数据集,即详细的长期描述。与其他合成图像标题注释的精选风格不同,DreamLIP-30M 利用预训练的多模态大型语言模型来获取平均长度为 247 的详细描述。更确切地说,详细的描述是通过向 ShareGPT4V/InstructBLIP/LLava1.5 提问“详细描述图像”而生成的。同时,我们还通过提示“用一句话描述图像”来提供生成的简短标题。详细长期描述的问题对答案的多样性影响很小,因此我们可以获得每个图像的全面描述。
附加信息
数据集策展人
Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen 和 Yujun Shen。
许可信息
我们根据标准的 Creative Common CC-BY-4.0 许可证分发带有长期描述的图像 URL。单个图像受其自身版权保护。
引用信息
bibtex @inproceedings{DreamLIP, title={DreamLIP: Language-Image Pre-training with Long Captions}, author={Zheng, Kecheng and Zhang, Yifei and Wu, Wei and Lu, Fan and Ma, Shuailei and Jin, Xin and Chen, Wei and Shen, Yujun}, booktitle={ECCV}, year={2024} }

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
lmarena-ai/arena-hard-auto-v0.1
--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```
hugging_face 收录
danaroth/icvl
ICVL是一个高光谱图像数据集,由Specim PS Kappa DX4高光谱相机和旋转平台进行空间扫描采集。数据集目前包含200张图像,并且会逐步增加。图像的空间分辨率为1392×1300,覆盖519个光谱波段(400-1000nm,间隔约1.25nm)。数据集提供了ENVI格式的原始数据和MAT格式的下采样数据(31个光谱通道,400-700nm,间隔10nm)。原始数据集仅包含干净的图像,用于高光谱图像去噪的测试数据来自另一篇论文。
hugging_face 收录
IMPC
**Abstract(s):** The International Mouse Phenotypic Consortium [(IMPC)](https://www.mousephenotype.org) is an international effort by 21 research institutions to identify the function of every protein-coding gene in the mouse genome. To achieve this, the IMPC is systematically switching off or ‘knocking out’ each of the roughly 20,000 genes that make up the mouse genome. Subsequently, the knock out mice undergo standardised physiological tests (phenotyping tests) across a range of biological systems in order to infer gene function. The overall aim of the project is not only to develop insight into the function of every gene, but also to provide transformative insights into the genetic basis of disease that will impact upon clinical diagnosis and management and ultimately prevent, detect, diagnose and treat disease. This published dataset is based on hundreds of E15.5 and E18.5 mouse models, all of which are homozygous knockouts, excluding the wildtype littermates.
DataCite Commons 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录