bigbio/tmvar_v3
收藏Hugging Face2024-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/tmvar_v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含500篇PubMed文章,这些文章手动注释了各种类型的突变提及,并为每个提及提供了dbsnp标准化。此外,数据集还包含变体标准化选项,如来自ClinGen Allele Registry的等位基因特定标识符。该数据集可用于命名实体识别(NER)和命名实体消歧(NED)任务,但没有提供数据分割。
提供机构:
bigbio
原始信息汇总
数据集概述:tmVar v3
基本信息
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语
- 数据集名称: tmVar v3
- 主页: https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/tmvar/
- PubMed可用性: 是
- 公开可用性: 是
- 任务类型: 命名实体识别(NER)、命名实体消歧(NED)
数据集描述
- 内容: 包含500篇PubMed文章,手动标注了各种突变提及及其dbsnp归一化。此外,还包括来自ClinGen Allele Registry的变异归一化选项。
- 用途: 适用于NER和NED任务。
- 特点: 无数据分割。
引用信息
@misc{https://doi.org/10.48550/arxiv.2204.03637, title = {tmVar 3.0: an improved variant concept recognition and normalization tool}, author = { Wei, Chih-Hsuan and Allot, Alexis and Riehle, Kevin and Milosavljevic, Aleksandar and Lu, Zhiyong }, year = 2022, publisher = {arXiv}, doi = {10.48550/ARXIV.2204.03637}, url = {https://arxiv.org/abs/2204.03637}, copyright = {Creative Commons Attribution 4.0 International}, keywords = { Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences } }
搜集汇总
数据集介绍

背景与挑战
背景概述
tmVar v3数据集包含500篇手动标注的PubMed文章,专注于突变提及和dbsnp标准化,并整合ClinGen等位基因注册表以支持变体标准化。该数据集适用于命名实体识别(NER)和命名实体消歧(NED)任务,但未提供预定义的数据分割,总文件大小为36 kB。
以上内容由遇见数据集搜集并总结生成



