burkelive/bert_v2_pii200_dataset
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/burkelive/bert_v2_pii200_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个文本处理相关的字段,如masked_text(掩码文本)、unmasked_text(未掩码文本)、privacy_mask(隐私掩码)等。数据集分为训练集和测试集,训练集包含34792个例子,测试集包含8699个例子。数据集的下载大小为26319204字节,总大小为112565814.0字节。
The dataset includes various features related to text processing, such as masked text, unmasked original text, privacy mask, label sequences, etc. It is divided into a training set and a test set, containing 34792 and 8699 samples respectively. The total size of the dataset is 112565814.0 bytes, with a download size of 26319204 bytes.
提供机构:
burkelive
原始信息汇总
数据集概述
数据集特征
- masked_text: 类型为字符串。
- unmasked_text: 类型为字符串。
- privacy_mask: 类型为字符串。
- span_labels: 类型为字符串。
- bio_labels: 类型为整数序列。
- tokenised_text: 类型为字符串序列。
- language: 类型为字符串。
- tt_lens: 类型为整数。
- ner_tags: 类型为整数序列。
- input_ids: 类型为整数序列。
- attention_mask: 类型为整数序列。
- labels: 类型为整数序列。
数据集分割
- train: 包含34792个样本,大小为90050580.59570946字节。
- test: 包含8699个样本,大小为22515233.404290542字节。
数据集大小
- 下载大小: 26319204字节。
- 总大小: 112565814.0字节。
配置
- default:
- train: 数据文件路径为
data/train-*。 - test: 数据文件路径为
data/test-*。
- train: 数据文件路径为



