five

ICT2214Team7/GPT_Generated_Dataset_V1

收藏
Hugging Face2024-10-28 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ICT2214Team7/GPT_Generated_Dataset_V1
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: pos_tags sequence: class_label: names: '0': '"' '1': '''''' '2': '#' '3': $ '4': ( '5': ) '6': ',' '7': . '8': ':' '9': '``' '10': CC '11': CD '12': DT '13': EX '14': FW '15': IN '16': JJ '17': JJR '18': JJS '19': LS '20': MD '21': NN '22': NNP '23': NNPS '24': NNS '25': NN|SYM '26': PDT '27': POS '28': PRP '29': PRP$ '30': RB '31': RBR '32': RBS '33': RP '34': SYM '35': TO '36': UH '37': VB '38': VBD '39': VBG '40': VBN '41': VBP '42': VBZ '43': WDT '44': WP '45': WP$ '46': WRB - name: chunk_tags sequence: class_label: names: '0': O '1': B-ADJP '2': I-ADJP '3': B-ADVP '4': I-ADVP '5': B-CONJP '6': I-CONJP '7': B-INTJ '8': I-INTJ '9': B-LST '10': I-LST '11': B-NP '12': I-NP '13': B-PP '14': I-PP '15': B-PRT '16': I-PRT '17': B-SBAR '18': I-SBAR '19': B-UCP '20': I-UCP '21': B-VP '22': I-VP '23': B-PNP '24': I-PNP - name: ner_tags sequence: class_label: names: '0': O '1': B-PER '2': I-PER '3': B-ORG '4': I-ORG '5': B-LOC '6': I-LOC '7': B-MISC '8': I-MISC '9': B-NAT '10': I-NAT '11': B-AGE '12': I-AGE splits: - name: train num_bytes: 2519038 num_examples: 1600 - name: validation num_bytes: 325836 num_examples: 200 - name: test num_bytes: 312965 num_examples: 200 download_size: 427748 dataset_size: 3157839 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息: 特征项: - 字段名:id,数据类型:字符串 - 字段名:tokens,数据类型:字符串序列 - 字段名:pos_tags(词性标注序列,Part-of-Speech Tags),其类别标签映射如下: '0': 双引号(") '1': '''''' '2': # '3': $ '4': ( '5': ) '6': , '7': . '8': : '9': `` '10': CC '11': CD '12': DT '13': EX '14': FW '15': IN '16': JJ '17': JJR '18': JJS '19': LS '20': MD '21': NN '22': NNP '23': NNPS '24': NNS '25': NN|SYM '26': PDT '27': POS '28': PRP '29': PRP$ '30': RB '31': RBR '32': RBS '33': RP '34': SYM '35': TO '36': UH '37': VB '38': VBD '39': VBG '40': VBN '41': VBP '42': VBZ '43': WDT '44': WP '45': WP$ '46': WRB - 字段名:chunk_tags(组块标注序列,Chunk Tags),其类别标签映射如下: '0': O '1': B-ADJP '2': I-ADJP '3': B-ADVP '4': I-ADVP '5': B-CONJP '6': I-CONJP '7': B-INTJ '8': I-INTJ '9': B-LST '10': I-LST '11': B-NP '12': I-NP '13': B-PP '14': I-PP '15': B-PRT '16': I-PRT '17': B-SBAR '18': I-SBAR '19': B-UCP '20': I-UCP '21': B-VP '22': I-VP '23': B-PNP '24': I-PNP - 字段名:ner_tags(命名实体识别序列,Named Entity Recognition, NER),其类别标签映射如下: '0': O '1': B-PER '2': I-PER '3': B-ORG '4': I-ORG '5': B-LOC '6': I-LOC '7': B-MISC '8': I-MISC '9': B-NAT '10': I-NAT '11': B-AGE '12': I-AGE 数据集划分: - 名称:train(训练集),字节大小:2519038,样本数量:1600 - 名称:validation(验证集),字节大小:325836,样本数量:200 - 名称:test(测试集),字节大小:312965,样本数量:200 下载总大小:427748,数据集总存储大小:3157839 配置项: - 配置名称:default(默认配置),数据文件路径映射: - 训练集:data/train-* - 验证集:data/validation-* - 测试集:data/test-*
提供机构:
ICT2214Team7
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作