thangvip/cti-dataset
收藏Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thangvip/cti-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含句子索引、单词序列、词性标注序列和标签序列。数据集分为训练集和测试集,训练集包含13794个样本,测试集包含3449个样本。此外,文件中还提供了词性标注和标签的映射字典,用于将词性标注和标签转换为ID或从ID转换回原始标注。
该数据集包含句子索引、单词序列、词性标注序列和标签序列。数据集分为训练集和测试集,训练集包含13794个样本,测试集包含3449个样本。此外,文件中还提供了词性标注和标签的映射字典,用于将词性标注和标签转换为ID或从ID转换回原始标注。
提供机构:
thangvip
原始信息汇总
数据集信息
特征
- sentence_idx: 数据类型为
int64 - words: 序列类型为
string - POS: 序列类型为
int64 - tag: 序列类型为
int64
数据分割
- train:
- 字节数: 13350196.989130436
- 样本数: 13794
- test:
- 字节数: 3338033.1604691073
- 样本数: 3449
数据大小
- 下载大小: 2511496 字节
- 数据集大小: 16688230.149599543 字节
配置
- default:
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
字典映射
- pos_2_id: POS 标签到 ID 的映射
- id_2_pos: ID 到 POS 标签的映射
- tag_2_id: 标签到 ID 的映射
- id_2_tag: ID 到标签的映射



