bigbio/pubmed_qa|生物医学数据集|自动问答数据集
收藏数据集概述:PubMedQA
数据集描述
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语
- 任务: 问答(QA)
数据集详情
- 主页: https://github.com/pubmedqa/pubmedqa
- 是否公开: 是
- 是否PubMed: 是
PubMedQA是一个专门从PubMed摘要中收集的生物医学问答(QA)数据集。该数据集的任务是使用相应的摘要来回答生物医学研究问题,答案为“是”、“否”或“可能”。
数据集组成
- PubMedQA Labeled (PQA-L): 包含1,000个专家标注的yes/no/maybe QA数据。
- PubMedQA Artificial (PQA-A): 包含211,300个自动生成的QA实例,问题来自文章标题,答案标签通过简单启发式方法生成。
- PubMedQA Unlabeled (PQA-U): 包含61,200个无标签的上下文-问题对数据。
数据集特点
PubMedQA是首个需要对生物医学研究文本,特别是其定量内容进行推理以回答问题的QA数据集。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录