thientran/autotrain-data-favs_bot

Name: thientran/autotrain-data-favs_bot
Creator: thientran
Published: 2022-08-16 03:18:04
License: 暂无描述

Hugging Face2022-08-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thientran/autotrain-data-favs_bot

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en --- # AutoTrain Dataset for project: favs_bot ## Dataset Descritpion This dataset has been automatically processed by AutoTrain for project favs_bot. ### Languages The BCP-47 code for the dataset's language is en. ## Dataset Structure ### Data Instances A sample from this dataset looks as follows: ```json [ { "feat_id": "13104", "tokens": [ "Jackie", "Frank" ], "feat_pos_tags": [ 21, 21 ], "feat_chunk_tags": [ 5, 16 ], "tags": [ 3, 7 ] }, { "feat_id": "9297", "tokens": [ "U.S.", "lauds", "Russian-Chechen", "deal", "." ], "feat_pos_tags": [ 21, 20, 15, 20, 7 ], "feat_chunk_tags": [ 5, 16, 16, 16, 22 ], "tags": [ 0, 8, 1, 8, 8 ] } ] ``` ### Dataset Fields The dataset has the following fields (also called "features"): ```json { "feat_id": "Value(dtype='string', id=None)", "tokens": "Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)", "feat_pos_tags": "Sequence(feature=ClassLabel(num_classes=47, names=['\"', '#', '$', \"''\", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'NN|SYM', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``'], id=None), length=-1, id=None)", "feat_chunk_tags": "Sequence(feature=ClassLabel(num_classes=23, names=['B-ADJP', 'B-ADVP', 'B-CONJP', 'B-INTJ', 'B-LST', 'B-NP', 'B-PP', 'B-PRT', 'B-SBAR', 'B-UCP', 'B-VP', 'I-ADJP', 'I-ADVP', 'I-CONJP', 'I-INTJ', 'I-LST', 'I-NP', 'I-PP', 'I-PRT', 'I-SBAR', 'I-UCP', 'I-VP', 'O'], id=None), length=-1, id=None)", "tags": "Sequence(feature=ClassLabel(num_classes=9, names=['B-LOC', 'B-MISC', 'B-ORG', 'B-PER', 'I-LOC', 'I-MISC', 'I-ORG', 'I-PER', 'O'], id=None), length=-1, id=None)" } ``` ### Dataset Splits This dataset is split into a train and validation split. The split sizes are as follow: | Split name | Num samples | | ------------ | ------------------- | | train | 10013 | | valid | 4029 |

提供机构：

thientran

原始信息汇总

AutoTrain Dataset for project: favs_bot

数据集描述

本数据集是为项目favs_bot自动处理的数据集。

语言

数据集的语言代码为en。

数据集结构

数据实例

数据集的样本示例如下：

json [ { "feat_id": "13104", "tokens": [ "Jackie", "Frank" ], "feat_pos_tags": [ 21, 21 ], "feat_chunk_tags": [ 5, 16 ], "tags": [ 3, 7 ] }, { "feat_id": "9297", "tokens": [ "U.S.", "lauds", "Russian-Chechen", "deal", "." ], "feat_pos_tags": [ 21, 20, 15, 20, 7 ], "feat_chunk_tags": [ 5, 16, 16, 16, 22 ], "tags": [ 0, 8, 1, 8, 8 ] } ]

数据集字段

数据集包含以下字段：

json { "feat_id": "Value(dtype=string, id=None)", "tokens": "Sequence(feature=Value(dtype=string, id=None), length=-1, id=None)", "feat_pos_tags": "Sequence(feature=ClassLabel(num_classes=47, names=[", #, $, "", (, ), ,, ., :, CC, CD, DT, EX, FW, IN, JJ, JJR, JJS, LS, MD, NN, NNP, NNPS, NNS, NN|SYM, PDT, POS, PRP, PRP$, RB, RBR, RBS, RP, SYM, TO, UH, VB, VBD, VBG, VBN, VBP, VBZ, WDT, WP, WP$, WRB, ``], id=None), length=-1, id=None)", "feat_chunk_tags": "Sequence(feature=ClassLabel(num_classes=23, names=[B-ADJP, B-ADVP, B-CONJP, B-INTJ, B-LST, B-NP, B-PP, B-PRT, B-SBAR, B-UCP, B-VP, I-ADJP, I-ADVP, I-CONJP, I-INTJ, I-LST, I-NP, I-PP, I-PRT, I-SBAR, I-UCP, I-VP, O], id=None), length=-1, id=None)", "tags": "Sequence(feature=ClassLabel(num_classes=9, names=[B-LOC, B-MISC, B-ORG, B-PER, I-LOC, I-MISC, I-ORG, I-PER, O], id=None), length=-1, id=None)" }

数据集分割

数据集分为训练集和验证集，分割大小如下：

分割名称	样本数量
训练	10013
验证	4029

5,000+

优质数据集

54 个

任务类型

进入经典数据集