five

EMBO/sd-nlp-non-tokenized

收藏
Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/sd-nlp-non-tokenized
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于SourceData(https://sourcedata.embo.org)数据库的内容,该数据库包含从细胞和分子生物学领域的科学论文中提取的手动注释的英文图例(Liechti et al, Nature Methods, 2017, https://doi.org/10.1038/nmeth.4471)。与使用`roberta-base`分词器预分词的[`sd-nlp`](https://huggingface.co/datasets/EMBO/sd-nlp)数据集不同,该数据集未进行预分词,而是仅分割为单词。用户可以使用它来微调其他模型。更多详细信息请访问https://github.com/source-data/soda-roberta。
提供机构:
EMBO
原始信息汇总

数据集概述

数据集名称

  • 名称: sd-nlp

数据集描述

  • 语言: 英语
  • 许可证: cc-by-4.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 任务类别:
    • 令牌分类
    • 文本分类
  • 任务ID:
    • 多类分类
    • 命名实体识别
    • 解析

数据集结构

  • 数据实例:
    • words: 单词列表
    • panel_id: 面板ID
    • label_ids:
      • entity_types: 实体类型标签
      • geneprod_roles: 基因产品角色标签
      • boring: 无关因果设计实体标签
      • panel_start: 面板开始标签
      • small_mol_roles: 小分子角色标签

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成
  • 源数据: 无
  • 注释过程: 未提供详细信息
  • 注释者: 未提供详细信息
  • 个人和敏感信息: 未提供详细信息

使用数据集的考虑因素

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集管理员: 未提供详细信息
  • 许可信息: cc-by-4.0
  • 引用信息: 未提供详细信息
  • 贡献: 未提供详细信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作