bigbio/bc5cdr|生物信息学数据集|药物发现数据集
收藏数据集概述
基本信息
- 名称: BC5CDR
- 语言: 英语
- 许可证: 公共领域标记1.0
- 多语言性: 单语种
数据集描述
- 主页: http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/
- 是否公开: 是
- 是否包含PubMed数据: 是
- 任务类型:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)
数据集内容
- 描述: BC5CDR数据集是一个包含1500篇PubMed文章的大规模标注文本语料库,其中包含了所有化学物质、疾病及其相互作用的人工标注。
引用信息
@article{DBLP:journals/biodb/LiSJSWLDMWL16, author = {Jiao Li and Yueping Sun and Robin J. Johnson and Daniela Sciaky and Chih{-}Hsuan Wei and Robert Leaman and Allan Peter Davis and Carolyn J. Mattingly and Thomas C. Wiegers and Zhiyong Lu}, title = {BioCreative {V} {CDR} task corpus: a resource for chemical disease relation extraction}, journal = {Database J. Biol. Databases Curation}, volume = {2016}, year = {2016}, url = {https://doi.org/10.1093/database/baw068}, doi = {10.1093/database/baw068}, timestamp = {Thu, 13 Aug 2020 12:41:41 +0200}, biburl = {https://dblp.org/rec/journals/biodb/LiSJSWLDMWL16.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录