TypicaAI/MedicalNER_Fr
收藏Hugging Face2025-01-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/TypicaAI/MedicalNER_Fr
下载链接
链接失效反馈官方服务:
资源简介:
MedicalNER_Fr数据集专门用于训练法语医疗和健康领域的命名实体识别(NER)模型。该数据集源自Multilingual Complex Named Entity Recognition (MultiCoNER)数据集,并经过过滤以仅包含与医疗领域相关的法语条目。非医疗标签被聚合为更广泛的类别。数据集包含样本ID、词汇、NER标签、文本和NER标签跨度等字段。数据集的创建目的是教育用途,建议在使用前对不平衡的数据集进行平衡处理。
提供机构:
TypicaAI
原始信息汇总
数据集概述
数据集描述
名称: MedicalNER_Fr
语言: 法语
许可: Creative Commons license family
多语言性: 单语种
大小类别: 10K<n<100K
任务类别:
- 词性标注
- 命名实体识别
标签:
- 医学
- 命名实体识别
数据集结构
特征
- sample_id: 每个样本的UUID。
- tokens: 句子中的词列表。
- ner_tags: 与每个词对应的命名实体识别标签列表。
- text: 由词组合而成的文本。
- ner_tags_span: 命名实体识别标签的跨度列表,每个跨度包含:
- 命名实体标签(实体类型)。
- 实体在文本中的起始位置。
- 实体在文本中的结束位置。
数据分割
- 训练集:
- 样本数: 16176
- 字节数: 7080146
标签统计
- AnatomicalStructure: 4685
- Disease: 4658
- Medication/Vaccine: 4226
- MedicalProcedure: 3170
- Symptom: 1763
- LOC: 525
- PER: 521
- PROD: 305
- CW: 167
- ORG: 83
- GRP: 14
数据集示例
json { "sample_id": "60a82e36-4d34-4e16-aadc-2078699476f7", "tokens": ["jonas", "salk", "médecin", "m.d.", "1938", "et", "inventeur", "du", "vaccin", "contre", "la", "poliomyélite", "."], "ner_tags": ["B-PER", "I-PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-Disease", "O"], "text": "jonas salk médecin m.d. 1938 et inventeur du vaccin contre la poliomyélite .", "ner_tags_span": "[[PER, 0, 10], [Disease, 62, 74]]" }



