five

GXLooong/cleaned_BIAS_CONLL

收藏
Hugging Face2023-12-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GXLooong/cleaned_BIAS_CONLL
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-BIAS '2': I-BIAS - name: input_ids sequence: int32 - name: attention_mask sequence: int8 - name: labels sequence: int64 splits: - name: train num_bytes: 1386045.6 num_examples: 2172 - name: validation num_bytes: 346511.4 num_examples: 543 download_size: 423070 dataset_size: 1732557.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* ---

许可证:Apache-2.0 数据集信息: 特征项: - 字段名:id,数据类型:字符串(string) - 字段名:tokens,数据类型:字符串序列 - 字段名:ner_tags,数据类型:序列类型,其类别标签映射为:0 → O,1 → B-BIAS,2 → I-BIAS - 字段名:input_ids,数据类型:int32序列 - 字段名:attention_mask,数据类型:int8序列 - 字段名:labels,数据类型:int64序列 数据集拆分: - 拆分名称:训练集(train),数据字节量:1386045.6,样本总数:2172 - 拆分名称:验证集(validation),数据字节量:346511.4,样本总数:543 下载总大小:423070 数据集总体量:1732557.0 配置项: - 配置名称:默认配置(default),关联数据文件: - 训练集(train):数据路径为data/train-* - 验证集(validation):数据路径为data/validation-*
提供机构:
GXLooong
原始信息汇总

数据集概述

许可证

  • Apache 2.0

数据集信息

特征

  • id: 字符串类型
  • tokens: 字符串序列
  • ner_tags: 序列类型,包含类别标签
    • 标签名称:
      • 0: O
      • 1: B-BIAS
      • 2: I-BIAS
  • input_ids: 整数序列 (int32)
  • attention_mask: 整数序列 (int8)
  • labels: 整数序列 (int64)

数据分割

  • 训练集:
    • 字节数: 1386045.6
    • 样本数: 2172
  • 验证集:
    • 字节数: 346511.4
    • 样本数: 543

数据大小

  • 下载大小: 423070 字节
  • 数据集大小: 1732557.0 字节

配置

  • 默认配置:
    • 数据文件:
      • 训练集: data/train-*
      • 验证集: data/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作