five

Yuhthe/phoner_conll

收藏
Hugging Face2023-09-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Yuhthe/phoner_conll
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* - split: test path: data/test-* dataset_info: features: - name: id dtype: int64 - name: words sequence: string - name: tags sequence: class_label: names: '0': B-AGE '1': I-AGE '2': B-DATE '3': I-JOB '4': O '5': B-NAME '6': I-PATIENT_ID '7': B-LOCATION '8': B-TRANSPORTATION '9': B-GENDER '10': I-ORGANIZATION '11': B-SYMPTOM_AND_DISEASE '12': B-JOB '13': I-NAME '14': B-ORGANIZATION '15': I-TRANSPORTATION '16': B-PATIENT_ID '17': I-SYMPTOM_AND_DISEASE '18': I-LOCATION '19': I-DATE splits: - name: train num_bytes: 2408512 num_examples: 5027 - name: val num_bytes: 1020086 num_examples: 2000 - name: test num_bytes: 1549558 num_examples: 3000 download_size: 831184 dataset_size: 4978156 --- # Dataset Card for "phoner_conll" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- configs: - 配置名称: default 数据文件: - 数据集划分: train(训练集) 路径: data/train-* - 数据集划分: val(验证集) 路径: data/val-* - 数据集划分: test(测试集) 路径: data/test-* 数据集信息: 特征字段: - 字段名: id 数据类型: int64 - 字段名: words 类型: 字符串序列 - 字段名: tags 类型: 类别标签序列,类别名称映射如下: '0': B-AGE(实体起始-年龄) '1': I-AGE(实体内部-年龄) '2': B-DATE(实体起始-日期) '3': I-JOB(实体内部-职业) '4': O(无实体) '5': B-NAME(实体起始-姓名) '6': I-PATIENT_ID(实体内部-患者ID) '7': B-LOCATION(实体起始-地点) '8': B-TRANSPORTATION(实体起始-交通工具) '9': B-GENDER(实体起始-性别) '10': I-ORGANIZATION(实体内部-组织) '11': B-SYMPTOM_AND_DISEASE(实体起始-症状与疾病) '12': B-JOB(实体起始-职业) '13': I-NAME(实体内部-姓名) '14': B-ORGANIZATION(实体起始-组织) '15': I-TRANSPORTATION(实体内部-交通工具) '16': B-PATIENT_ID(实体起始-患者ID) '17': I-SYMPTOM_AND_DISEASE(实体内部-症状与疾病) '18': I-LOCATION(实体内部-地点) '19': I-DATE(实体内部-日期) 数据集划分: - 划分名称: train 字节数: 2408512 样本数量: 5027 - 划分名称: val 字节数: 1020086 样本数量: 2000 - 划分名称: test 字节数: 1549558 样本数量: 3000 下载大小: 831184 数据集总大小: 4978156 --- # "phoner_conll"数据集卡片 [更多信息需补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Yuhthe
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 验证集:路径为 data/val-*
    • 测试集:路径为 data/test-*

数据集信息

  • 特征
    • id:类型为 int64
    • words:序列类型为 string
    • tags:序列类型,包含多个类别标签,具体标签如下:
      • 0: B-AGE
      • 1: I-AGE
      • 2: B-DATE
      • 3: I-JOB
      • 4: O
      • 5: B-NAME
      • 6: I-PATIENT_ID
      • 7: B-LOCATION
      • 8: B-TRANSPORTATION
      • 9: B-GENDER
      • 10: I-ORGANIZATION
      • 11: B-SYMPTOM_AND_DISEASE
      • 12: B-JOB
      • 13: I-NAME
      • 14: B-ORGANIZATION
      • 15: I-TRANSPORTATION
      • 16: B-PATIENT_ID
      • 17: I-SYMPTOM_AND_DISEASE
      • 18: I-LOCATION
      • 19: I-DATE

数据集分割

  • 训练集
    • 字节数:2408512
    • 样本数:5027
  • 验证集
    • 字节数:1020086
    • 样本数:2000
  • 测试集
    • 字节数:1549558
    • 样本数:3000

数据集大小

  • 下载大小:831184 字节
  • 数据集总大小:4978156 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作