burkelive/bert_v2_pii200_predict_dataset
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/burkelive/bert_v2_pii200_predict_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个文本处理相关的字段,如masked_text(掩码文本)、unmasked_text(未掩码文本)、privacy_mask(隐私掩码)等,以及用于评估模型性能的多种metrics(指标)。数据集主要用于测试集,包含3410个示例,总大小为71969783字节。
This dataset includes multiple fields related to text processing, such as masked_text, unmasked_text, privacy_mask, etc., along with various metrics for evaluating model performance. The dataset is primarily for the test set, containing 3410 examples with a total size of 71969783 bytes.
提供机构:
burkelive
原始信息汇总
数据集概述
数据集特征
- masked_text: 类型为字符串。
- unmasked_text: 类型为字符串。
- privacy_mask: 类型为字符串。
- bio_labels: 类型为字符串序列。
- tokenised_text: 类型为字符串序列。
- span_labels: 类型为字符串。
- language: 类型为字符串。
- tt_lens: 类型为int64。
- ner_tags: 类型为int64序列。
- input_ids: 类型为int32序列。
- attention_mask: 类型为int8序列。
- labels: 类型为int64序列。
- predict_bio_labels: 类型为字符串序列。
- predict_label_ids: 类型为int64序列。
- metrics: 结构化数据,包含以下字段:
- test_ACCOUNTNAME_f1: 类型为float64。
- test_ACCOUNTNUMBER_f1: 类型为float64。
- test_AGE_f1: 类型为float64。
- test_AMOUNT_f1: 类型为float64。
- test_BIC_f1: 类型为float64。
- test_BITCOINADDRESS_f1: 类型为float64。
- test_BUILDINGNUMBER_f1: 类型为float64。
- test_CITY_f1: 类型为float64。
- test_COMPANYNAME_f1: 类型为float64。
- test_COUNTY_f1: 类型为float64。
- test_CREDITCARDCVV_f1: 类型为float64。
- test_CREDITCARDISSUER_f1: 类型为float64。
- test_CREDITCARDNUMBER_f1: 类型为float64。
- test_CURRENCYCODE_f1: 类型为float64。
- test_CURRENCYNAME_f1: 类型为float64。
- test_CURRENCYSYMBOL_f1: 类型为float64。
- test_CURRENCY_f1: 类型为float64。
- test_DATE_f1: 类型为float64。
- test_DOB_f1: 类型为float64。
- test_EMAIL_f1: 类型为float64。
- test_ETHEREUMADDRESS_f1: 类型为float64。
- test_EYECOLOR_f1: 类型为float64。
- test_FIRSTNAME_f1: 类型为float64。
- test_GENDER_f1: 类型为float64。
- test_HEIGHT_f1: 类型为float64。
- test_IBAN_f1: 类型为float64。
- test_IPV4_f1: 类型为float64。
- test_IPV6_f1: 类型为float64。
- test_IP_f1: 类型为float64。
- test_JOBAREA_f1: 类型为float64。
- test_JOBTITLE_f1: 类型为float64。
- test_JOBTYPE_f1: 类型为float64。
- test_LASTNAME_f1: 类型为float64。
- test_LITECOINADDRESS_f1: 类型为float64。
- test_MAC_f1: 类型为float64。
- test_MASKEDNUMBER_f1: 类型为float64。
- test_MIDDLENAME_f1: 类型为float64。
- test_NEARBYGPSCOORDINATE_f1: 类型为float64。
- test_ORDINALDIRECTION_f1: 类型为float64。
- test_PASSWORD_f1: 类型为float64。
- test_PHONEIMEI_f1: 类型为float64。
- test_PHONENUMBER_f1: 类型为float64。
- test_PIN_f1: 类型为float64。
- test_PREFIX_f1: 类型为float64。
- test_SECONDARYADDRESS_f1: 类型为float64。
- test_SEX_f1: 类型为float64。
- test_SSN_f1: 类型为float64。
- test_STATE_f1: 类型为float64。
- test_STREET_f1: 类型为float64。
- test_TIME_f1: 类型为float64。
- test_URL_f1: 类型为float64。
- test_USERAGENT_f1: 类型为float64。
- test_USERNAME_f1: 类型为float64。
- test_VEHICLEVIN_f1: 类型为float64。
- test_VEHICLEVRM_f1: 类型为float64。
- test_ZIPCODE_f1: 类型为float64。
- test_loss: 类型为float64。
- test_overall_accuracy: 类型为float64。
- test_overall_f1: 类型为float64。
- test_overall_precision: 类型为float64。
- test_overall_recall: 类型为float64。
- test_runtime: 类型为float64。
- test_samples_per_second: 类型为float64。
- test_steps_per_second: 类型为float64。
- f1: 类型为float64。
数据集分割
- test: 包含3410个样本,总字节数为71969783。
数据集大小
- 下载大小: 11128412字节。
- 数据集大小: 71969783字节。
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:



