Appendix C. Video showing the true utilization distribution, by day of year, for our Monte Carlo simulations, as per Eq. 9.|蒙特卡洛模拟数据集|利用率分析数据集
收藏CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
GEO (Gene Expression Omnibus)
GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.
OPEN DATA NETWORK 收录
RETQA
RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。
arXiv 收录