tjspross/as_traditional
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tjspross/as_traditional
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含tokens(字符串序列)和cws_tags(序列标签,包含B-SEG、M-SEG、E-SEG、S-SEG四种类别)两个主要特征。数据集分为train、dev、test三个部分,分别包含638057、70896、14429个样本。数据集的下载大小为22765101字节,总大小为134268692.0字节。
该数据集包含tokens(字符串序列)和cws_tags(序列标签,包含B-SEG、M-SEG、E-SEG、S-SEG四种类别)两个主要特征。数据集分为train、dev、test三个部分,分别包含638057、70896、14429个样本。数据集的下载大小为22765101字节,总大小为134268692.0字节。
提供机构:
tjspross
原始信息汇总
数据集概述
特征
- tokens: 字符串序列
- cws_tags: 序列标签,包含以下类别:
- 0: B-SEG
- 1: M-SEG
- 2: E-SEG
- 3: S-SEG
数据分割
- train:
- 字节数: 118072634.46479526
- 样本数: 638057
- dev:
- 字节数: 13119325.53520473
- 样本数: 70896
- test:
- 字节数: 3076732
- 样本数: 14429
数据大小
- 下载大小: 22765101 字节
- 数据集大小: 134268692.0 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
- 数据文件路径:



