explosion/ner-drugs
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/explosion/ner-drugs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集最初是[此教程](https://github.com/explosion/projects/tree/v3/tutorials/ner_drugs)的一部分。数据集的目的是在Reddit讨论中找到药物的引用。
该数据集最初为[该教程](https://github.com/explosion/projects/tree/v3/tutorials/ner_drugs)的组成部分。本数据集的设计目标为在Reddit平台的讨论内容中识别药物相关引用。
提供机构:
explosion
原始信息汇总
数据集概述
数据集信息
特征
- text: 数据类型为字符串。
- meta: 包含一个结构体,其中有一个名为
section的字段,数据类型为字符串。 - _input_hash: 数据类型为 int64。
- _task_hash: 数据类型为 int64。
- tokens: 包含一个列表,列表中的字段包括:
- end: 数据类型为 int64。
- id: 数据类型为 int64。
- start: 数据类型为 int64。
- text: 数据类型为字符串。
- answer: 数据类型为字符串。
- spans: 包含一个列表,列表中的字段包括:
- end: 数据类型为 int64。
- label: 数据类型为字符串。
- start: 数据类型为 int64。
- token_end: 数据类型为 int64。
- token_start: 数据类型为 int64。
数据分割
- train: 包含 1477 个样本,总字节数为 2486903。
- eval: 包含 500 个样本,总字节数为 849130。
数据集大小
- download_size: 0 字节。
- dataset_size: 3336033 字节。



