United Kingdom - Northern Ireland Health Survey 2010-2011 - UK Data Service|健康调查数据集|公共卫生数据集
收藏alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9
该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。
huggingface 收录
库帕思金融大模型评测数据集(2024版)
金融大模型评测数据集(2024版),对标《金融大模型应用测评指南》(T/SAIAS 019—2024),涵盖金融行业核心领域,数据来自金融机构行业实践,是金融领域大模型应用成效评测的重要抓手。 评测数据集比照最高水平、最好标准,具有规模大、结构优、价值对齐等特点,符合金融领域对知识鲜活度、多样性和高密度的整体要求。 聚焦“模型基础能力”,围绕计算能力、逻辑推理等6个维度,设计评测数据22000余句对。 聚焦“金融安全与价值对齐能力”,围绕信息内容、社会秩序等13个维度,设计评测数据2000余句对。 聚焦“金融风险控制能力”,围绕合规、市场、操作等5类金融风险,设计评测数据1000余句对。 聚焦“金融业务辅助拓展能力”,围绕舆情分析、智能投研等3项业务场景,设计评测数据12000余句对。 聚焦“金融专业认知能力”,围绕金融专业知识、IPO图表等7种知识类型,设计评测数据7000余句对。 金融大模型评测数据集定期更新、动态迭代,1250条样例集已在Open Data Lab完成开源。
OpenDataLab 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
MedTrinity-25M
MedTrinity-25M是由华中科技大学、加州大学圣克鲁兹分校、哈佛大学和斯坦福大学联合创建的一个大规模多模态医学数据集,包含超过2500万张图像,涉及10种模态和65种疾病。数据集通过自动化的数据构建流程生成,不依赖于配对的文本描述,而是通过专家模型和知识库增强的多模态大型语言模型生成多粒度视觉和文本注释。数据集的创建过程包括从90多个在线资源收集数据,应用专家模型识别感兴趣区域(ROIs),并构建知识库以生成详细的文本描述。MedTrinity-25M旨在支持广泛的医学多模态任务,如图像标注和报告生成,以及视觉中心的任务如分类和分割,推动医学领域基础模型的发展。
arXiv 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录