bcombs/autotrain-data-docid
收藏AutoTrain 数据集描述
数据集概述
该数据集由 AutoTrain 自动处理,用于项目 docid。
语言
数据集的语言 BCP-47 代码为 unk。
数据集结构
数据实例
数据集的一个样本如下:
json [ { "text": "MetLife-Walker Information_HI_2023.3.29_14.17_C_B (1).docx.pdf", "feat_url": "datasaur://static/5732/2a298b78-1c2c-4ff8-ad49-357670dd5ea7.pdf", "target": 0, "feat_CarrierName": "Met Life", "feat_ProductTypes": "Hospital Indemnity" }, { "text": "Cima Telecom Inc_Prop (002)_ (2).docx.pdf", "feat_url": "datasaur://static/5732/8adee066-55c4-4f8d-8dcd-53d5fdb42732.pdf", "target": 0, "feat_CarrierName": "Met Life", "feat_ProductTypes": "Basic Life;Basic AD&D;Voluntary Life;Voluntary AD&D;Voluntary Dependent AD&D;Short-term Disability;Long-term Disability;Dental;Vision" } ]
数据字段
数据集包含以下字段(也称为“特征”):
json { "text": "Value(dtype=string, id=None)", "feat_url": "Value(dtype=string, id=None)", "target": "ClassLabel(names=[Proposal, Summary (including SBC)], id=None)", "feat_CarrierName": "Value(dtype=string, id=None)", "feat_ProductTypes": "Value(dtype=string, id=None)" }
数据集分割
数据集被分割为训练集和验证集。分割大小如下:
| 分割名称 | 样本数量 |
|---|---|
| train | 15 |
| valid | 5 |



