EMBO/sd-nlp-non-tokenized
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/sd-nlp-non-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于SourceData(https://sourcedata.embo.org)数据库的内容,该数据库包含从细胞和分子生物学领域的科学论文中提取的手动注释的英文图例(Liechti et al, Nature Methods, 2017, https://doi.org/10.1038/nmeth.4471)。与使用`roberta-base`分词器预分词的[`sd-nlp`](https://huggingface.co/datasets/EMBO/sd-nlp)数据集不同,该数据集未进行预分词,而是仅分割为单词。用户可以使用它来微调其他模型。更多详细信息请访问https://github.com/source-data/soda-roberta。
提供机构:
EMBO
原始信息汇总
数据集概述
数据集名称
- 名称: sd-nlp
数据集描述
- 语言: 英语
- 许可证: cc-by-4.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 任务类别:
- 令牌分类
- 文本分类
- 任务ID:
- 多类分类
- 命名实体识别
- 解析
数据集结构
- 数据实例:
words: 单词列表panel_id: 面板IDlabel_ids:entity_types: 实体类型标签geneprod_roles: 基因产品角色标签boring: 无关因果设计实体标签panel_start: 面板开始标签small_mol_roles: 小分子角色标签
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 专家生成
- 源数据: 无
- 注释过程: 未提供详细信息
- 注释者: 未提供详细信息
- 个人和敏感信息: 未提供详细信息
使用数据集的考虑因素
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集管理员: 未提供详细信息
- 许可信息: cc-by-4.0
- 引用信息: 未提供详细信息
- 贡献: 未提供详细信息



