tjspross/msr
收藏Hugging Face2024-01-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tjspross/msr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个主要字段:tokens和cws_tags。tokens字段是一个字符串序列,cws_tags字段是一个带有类别标签的序列,标签包括B-SEG、M-SEG、E-SEG和S-SEG。数据集分为训练集、测试集和开发集,分别包含78225、3985和8693个样本。
该数据集包含两个主要字段:tokens和cws_tags。tokens字段是一个字符串序列,cws_tags字段是一个带有类别标签的序列,标签包括B-SEG、M-SEG、E-SEG和S-SEG。数据集分为训练集、测试集和开发集,分别包含78225、3985和8693个样本。
提供机构:
tjspross
原始信息汇总
数据集概述
特征信息
- tokens: 序列类型,字符串。
- cws_tags: 序列类型,包含类别标签,标签名称如下:
- 0: B-SEG
- 1: M-SEG
- 2: E-SEG
- 3: S-SEG
数据分割
- train:
- 字节数: 55123340
- 样本数: 78225
- test:
- 字节数: 2796391
- 样本数: 3985
- dev:
- 字节数: 6327088
- 样本数: 8693
数据集大小
- 下载大小: 8513084 字节
- 数据集大小: 64246819 字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- test: data/test-*
- dev: data/dev-*
- data_files:



