tsynbio/ProteinLMBench|蛋白质研究数据集|问答任务数据集
收藏数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 英语
- 标签: 生物学, 医学, 化学
- 数据规模: 小于1K
配置详情
- UniProt_Function
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Function.json
- 数据文件:
- UniProt_Induction
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Induction.json
- 数据文件:
- UniProt_Involvement in disease
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Involvement in disease.json
- 数据文件:
- UniProt_Post-translational modification
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Post-translational modification.json
- 数据文件:
- UniProt_Subunit structure
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Subunit structure.json
- 数据文件:
- UniProt_Tissue specificity
- 数据文件:
- 分割: 训练
- 路径: sft/sft_uniprot_Tissue specificity.json
- 数据文件:
- Enzyme_CoT
- 数据文件:
- 分割: 训练
- 路径: sft/enzyme_CoT.json
- 数据文件:
- evaluation
- 数据文件:
- 分割: 训练
- 路径: ProteinLMBench.json
- 数据文件:

红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录