bigbio/bioid|生物信息学数据集|文本标注数据集
收藏数据集概述:Bio-ID
数据集描述
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语种
- 名称: Bio-ID
- 主页: BioCreative VI Track 1
- 是否公开: 是
- 是否包含PubMed数据: 是
- 任务类型:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
数据集内容
Bio-ID 数据集专注于生物实体类型的实体标记和ID分配,主要针对图例文本进行标注,包括生物实体类型如物种、基因、蛋白质、miRNA、小分子、细胞组分、细胞类型和细胞系、组织和器官。数据集基于SourceData注释的图例(按面板),采用BioC格式,并提供相应的全文文章(同样为BioC格式)作为上下文。
引用信息
@inproceedings{arighi2017bio, title={Bio-ID track overview}, author={Arighi, Cecilia and Hirschman, Lynette and Lemberger, Thomas and Bayer, Samuel and Liechti, Robin and Comeau, Donald and Wu, Cathy}, booktitle={Proc. BioCreative Workshop}, volume={482}, pages={376}, year={2017} }
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
World Oil Production Data
该数据集包含了全球各国的石油生产数据,涵盖了从1973年至今的年度和月度数据。数据包括各国的原油产量、天然气液体产量以及总液体产量。此外,数据集还提供了各国的石油消费量和净进口量等信息。
www.eia.gov 收录