five

TypicaAI/MedicalNER_Fr

收藏
Hugging Face2025-01-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/TypicaAI/MedicalNER_Fr
下载链接
链接失效反馈
官方服务:
资源简介:
MedicalNER_Fr数据集专门用于训练法语医疗和健康领域的命名实体识别(NER)模型。该数据集源自Multilingual Complex Named Entity Recognition (MultiCoNER)数据集,并经过过滤以仅包含与医疗领域相关的法语条目。非医疗标签被聚合为更广泛的类别。数据集包含样本ID、词汇、NER标签、文本和NER标签跨度等字段。数据集的创建目的是教育用途,建议在使用前对不平衡的数据集进行平衡处理。
提供机构:
TypicaAI
原始信息汇总

数据集概述

数据集描述

名称: MedicalNER_Fr
语言: 法语
许可: Creative Commons license family
多语言性: 单语种
大小类别: 10K<n<100K
任务类别:

  • 词性标注
  • 命名实体识别

标签:

  • 医学
  • 命名实体识别

数据集结构

特征

  1. sample_id: 每个样本的UUID。
  2. tokens: 句子中的词列表。
  3. ner_tags: 与每个词对应的命名实体识别标签列表。
  4. text: 由词组合而成的文本。
  5. ner_tags_span: 命名实体识别标签的跨度列表,每个跨度包含:
    • 命名实体标签(实体类型)。
    • 实体在文本中的起始位置。
    • 实体在文本中的结束位置。

数据分割

  • 训练集:
    • 样本数: 16176
    • 字节数: 7080146

标签统计

  • AnatomicalStructure: 4685
  • Disease: 4658
  • Medication/Vaccine: 4226
  • MedicalProcedure: 3170
  • Symptom: 1763
  • LOC: 525
  • PER: 521
  • PROD: 305
  • CW: 167
  • ORG: 83
  • GRP: 14

数据集示例

json { "sample_id": "60a82e36-4d34-4e16-aadc-2078699476f7", "tokens": ["jonas", "salk", "médecin", "m.d.", "1938", "et", "inventeur", "du", "vaccin", "contre", "la", "poliomyélite", "."], "ner_tags": ["B-PER", "I-PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-Disease", "O"], "text": "jonas salk médecin m.d. 1938 et inventeur du vaccin contre la poliomyélite .", "ner_tags_span": "[[PER, 0, 10], [Disease, 62, 74]]" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作