PQAref|生物医学数据集|问答系统数据集
收藏数据集概述
数据集名称
PubMed Referenced Question Answering Dataset
数据集描述
PQAref数据集是一个用于在生物医学领域微调大型语言模型以进行参考问答的数据集。
数据集内容
数据集包含以下三个部分:
- Instruction:需要回答的问题。
- Abstracts:从PubMed检索的10篇相关摘要,包含PubMed ID、摘要标题和摘要内容。
- Answer:预期答案,包含PubMed ID形式的参考。
数据集创建方式
数据集是半自动创建的,利用了PubMedQA数据集中可用的问题。
数据集特征
- 输入:字符串类型
数据集分割
- 训练集:包含7260个样本,大小为136602851.95652175字节。
- 验证集:包含907个样本,大小为17065948.584650856字节。
- 测试集:包含908个样本,大小为17084764.40447958字节。
数据集大小
- 下载大小:82888007字节
- 数据集大小:170753564.9456522字节
任务类别
- 文本生成
- 问答
- 摘要
语言
- 英语
标签
- 生物学
- 生物医学
数据集规模
- 10M<n<100M

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
CCPD
CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中,每张图片仅包含一张车牌,车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息,但是CCPD数据集没有专门的标注文件,每张图像的文件名就是该图像对应的数据标注。
github 收录
CMACD
这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
github 收录