five

stulcrad/CNEC1_1_CONLL_ext

收藏
Hugging Face2024-05-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stulcrad/CNEC1_1_CONLL_ext
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - cs dataset_info: features: - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-ah '2': I-ah '3': B-at '4': I-at '5': B-az '6': I-az '7': B-g_ '8': I-g_ '9': B-gc '10': I-gc '11': B-gh '12': I-gh '13': B-gl '14': I-gl '15': B-gp '16': I-gp '17': B-gq '18': I-gq '19': B-gr '20': I-gr '21': B-gs '22': I-gs '23': B-gt '24': I-gt '25': B-gu '26': I-gu '27': B-i_ '28': I-i_ '29': B-ia '30': I-ia '31': B-ic '32': I-ic '33': B-if '34': I-if '35': B-io '36': I-io '37': B-mn '38': I-mn '39': B-mt '40': I-mt '41': B-mr '42': I-mr '43': B-o_ '44': I-o_ '45': B-oa '46': I-oa '47': B-oc '48': I-oc '49': B-oe '50': I-oe '51': B-om '52': I-om '53': B-op '54': I-op '55': B-or '56': I-or '57': B-p_ '58': I-p_ '59': B-pb '60': I-pb '61': B-pc '62': I-pc '63': B-pd '64': I-pd '65': B-pf '66': I-pf '67': B-pm '68': I-pm '69': B-pp '70': I-pp '71': B-ps '72': I-ps '73': B-td '74': I-td '75': B-tf '76': I-tf '77': B-th '78': I-th '79': B-ti '80': I-ti '81': B-tm '82': I-tm '83': B-ty '84': I-ty splits: - name: train num_bytes: 2089783 num_examples: 4695 - name: validation num_bytes: 260957 num_examples: 587 - name: test num_bytes: 263473 num_examples: 586 download_size: 904587 dataset_size: 2614213 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---
提供机构:
stulcrad
原始信息汇总

数据集概述

数据集特征

  • tokens: 字符串序列
  • ner_tags: 序列标签,包含以下类别:
    • 0: O
    • 1: B-ah
    • ...
    • 84: I-ty

数据集分割

  • train: 4695个样本,总大小2089783字节
  • validation: 587个样本,总大小260957字节
  • test: 586个样本,总大小263473字节

数据集大小

  • 下载大小: 904587字节
  • 数据集总大小: 2614213字节

配置文件

  • default: 包含训练、验证和测试数据的路径配置
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作