naorm/dnrti-cyner-ner
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/naorm/dnrti-cyner-ner
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: Type
dtype: string
- name: Text
dtype: string
- name: Fixed Text
dtype: string
- name: Score
dtype: float64
- name: Original Sentence ID
dtype: int64
- name: Original Sentence
dtype: string
- name: Decoded Sentence
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 4719345
num_examples: 11460
download_size: 1303936
dataset_size: 4719345
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 字段名称:类型(Type),数据类型:字符串(string)
- 字段名称:文本(Text),数据类型:字符串(string)
- 字段名称:修正文本(Fixed Text),数据类型:字符串(string)
- 字段名称:得分(Score),数据类型:双精度浮点型(float64)
- 字段名称:原句子ID(Original Sentence ID),数据类型:64位整型(int64)
- 字段名称:原句子(Original Sentence),数据类型:字符串(string)
- 字段名称:解码后句子(Decoded Sentence),数据类型:字符串(string)
- 字段名称:索引列0(__index_level_0__),数据类型:64位整型(int64)
数据划分:
- 划分名称:训练集(train),数据字节数:4719345,样本数量:11460
下载大小:1303936,数据集总大小:4719345
配置项:
- 配置名称:默认配置(default),数据文件:
- 对应划分:训练集(train),文件路径:data/train-*
提供机构:
naorm
原始信息汇总
数据集概述
数据集特征
- Type: 数据类型为字符串。
- Text: 文本内容,数据类型为字符串。
- Fixed Text: 修正后的文本内容,数据类型为字符串。
- Score: 分数,数据类型为浮点数(float64)。
- Original Sentence ID: 原始句子ID,数据类型为整数(int64)。
- Original Sentence: 原始句子,数据类型为字符串。
- Decoded Sentence: 解码后的句子,数据类型为字符串。
- index_level_0: 索引级别0,数据类型为整数(int64)。
数据集分割
- train: 训练集,包含11460个样本,占用4719345字节。
数据集大小
- 下载大小: 1303936字节。
- 数据集大小: 4719345字节。
配置
- default: 默认配置,包含训练集数据文件,路径为
data/train-*。



