bigbio/cellfinder
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/cellfinder
下载链接
链接失效反馈官方服务:
资源简介:
CellFinder项目旨在通过链接现有公共数据库的信息和对研究文献进行文本挖掘来创建干细胞数据存储库。数据集的第一个版本包含10篇全文文档,超过2,100个句子,65,000个标记和5,200个实体注释。这些实体被注释为六种类型:解剖部分、细胞组件、细胞系、细胞类型、基因/蛋白质和物种,整体注释者间一致性约为80%。
提供机构:
bigbio
原始信息汇总
数据集概述:CellFinder
数据集描述
- 语言: 英语
- 许可证: CC-BY-SA-3.0
- 多语言性: 单语种
- 任务: 命名实体识别(NER)
详细信息
- 主页: https://www.informatik.hu-berlin.de/de/forschung/gebiete/wbi/resources/cellfinder/
- 是否公开: 是
- 是否包含PubMed数据: 是
数据集内容
- 项目目标: 创建一个干细胞数据仓库,通过链接现有公共数据库的信息和研究文献的文本挖掘。
- 数据集版本: 第一版包含10篇全文文档,超过2,100个句子,65,000个词条和5,200个实体标注。
- 实体类型: 六种(解剖部位、细胞组件、细胞系、细胞类型、基因/蛋白质和物种)。
- 标注一致性: 总体标注者间一致性约为80%。
引用信息
@inproceedings{neves2012annotating, title = {Annotating and evaluating text for stem cell research}, author = {Neves, Mariana and Damaschun, Alexander and Kurtz, Andreas and Leser, Ulf}, year = 2012, booktitle = {Proceedings of the Third Workshop on Building and Evaluation Resources for Biomedical Text Mining (BioTxtM 2012) at Language Resources and Evaluation (LREC). Istanbul, Turkey}, pages = {16--23}, organization = {Citeseer} }
搜集汇总
数据集介绍

背景与挑战
背景概述
CellFinder是一个专注于干细胞研究的生物医学文本数据集,属于BigScience Biomedical Datasets项目。它包含10个全文文档,标注了六种实体类型(如基因/蛋白质、物种等),用于命名实体识别(NER)任务,整体标注一致性约为80%,规模较小(总行数126),适用于生物医学文本挖掘研究。
以上内容由遇见数据集搜集并总结生成



