five

ICT2214Team7/GPT_Generated_Dataset_Fold1_2000

收藏
Hugging Face2024-11-10 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ICT2214Team7/GPT_Generated_Dataset_Fold1_2000
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: pos_tags sequence: class_label: names: '0': '"' '1': '''''' '2': '#' '3': $ '4': ( '5': ) '6': ',' '7': . '8': ':' '9': '``' '10': CC '11': CD '12': DT '13': EX '14': FW '15': IN '16': JJ '17': JJR '18': JJS '19': LS '20': MD '21': NN '22': NNP '23': NNPS '24': NNS '25': NN|SYM '26': PDT '27': POS '28': PRP '29': PRP$ '30': RB '31': RBR '32': RBS '33': RP '34': SYM '35': TO '36': UH '37': VB '38': VBD '39': VBG '40': VBN '41': VBP '42': VBZ '43': WDT '44': WP '45': WP$ '46': WRB - name: chunk_tags sequence: class_label: names: '0': O '1': B-ADJP '2': I-ADJP '3': B-ADVP '4': I-ADVP '5': B-CONJP '6': I-CONJP '7': B-INTJ '8': I-INTJ '9': B-LST '10': I-LST '11': B-NP '12': I-NP '13': B-PP '14': I-PP '15': B-PRT '16': I-PRT '17': B-SBAR '18': I-SBAR '19': B-UCP '20': I-UCP '21': B-VP '22': I-VP '23': B-PNP '24': I-PNP - name: ner_tags sequence: class_label: names: '0': O '1': B-PER '2': I-PER '3': B-ORG '4': I-ORG '5': B-LOC '6': I-LOC '7': B-MISC '8': I-MISC '9': B-NAT '10': I-NAT '11': B-AGE '12': I-AGE splits: - name: train num_bytes: 2241259 num_examples: 1280 - name: validation num_bytes: 591752 num_examples: 320 - name: test num_bytes: 703855 num_examples: 400 download_size: 482626 dataset_size: 3536866 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息: 特征: - 字段名:id,数据类型:字符串 - 字段名:tokens,数据类型:字符串序列 - 字段名:pos_tags(词性标注标签,POS Tags),数据类型:序列类别标签,其标签映射如下: '0': 双引号 '1': 单引号 '2': 井号 '3': 美元符号 '4': 左括号 '5': 右括号 '6': 逗号 '7': 句号 '8': 冒号 '9': 左双引号(``) '10': CC(并列连词) '11': CD(基数词) '12': DT(限定词) '13': EX(存在句引导词there) '14': FW(外来词) '15': IN(介词/从属连词) '16': JJ(形容词) '17': JJR(形容词比较级) '18': JJS(形容词最高级) '19': LS(列表项标记) '20': MD(情态动词) '21': NN(单数普通名词) '22': NNP(单数专有名词) '23': NNPS(复数专有名词) '24': NNS(复数普通名词) '25': NN|SYM(名词|符号) '26': PDT(前置限定词) '27': POS(所有格后缀) '28': PRP(人称代词) '29': PRP$(形容词性物主代词) '30': RB(副词) '31': RBR(副词比较级) '32': RBS(副词最高级) '33': RP(小品词) '34': SYM(符号) '35': TO(不定式标记) '36': UH(感叹词) '37': VB(动词原形) '38': VBD(动词过去式) '39': VBG(现在分词/动名词) '40': VBN(过去分词) '41': VBP(非第三人称单数现在时动词) '42': VBZ(第三人称单数现在时动词) '43': WDT(疑问限定词) '44': WP(疑问代词) '45': WP$(疑问形容词性物主代词) '46': WRB(疑问副词) - 字段名:chunk_tags(组块标注标签,Chunk Tags),数据类型:序列类别标签,其标签映射如下: '0': O(其他) '1': B-ADJP(形容词短语起始) '2': I-ADJP(形容词短语内部) '3': B-ADVP(副词短语起始) '4': I-ADVP(副词短语内部) '5': B-CONJP(并列连词短语起始) '6': I-CONJP(并列连词短语内部) '7': B-INTJ(感叹词短语起始) '8': I-INTJ(感叹词短语内部) '9': B-LST(列表标记起始) '10': I-LST(列表标记内部) '11': B-NP(名词短语起始) '12': I-NP(名词短语内部) '13': B-PP(介词短语起始) '14': I-PP(介词短语内部) '15': B-PRT(小品词短语起始) '16': I-PRT(小品词短语内部) '17': B-SBAR(从属分句起始) '18': I-SBAR(从属分句内部) '19': B-UCP(非并列成分短语起始) '20': I-UCP(非并列成分短语内部) '21': B-VP(动词短语起始) '22': I-VP(动词短语内部) '23': B-PNP(代词短语起始) '24': I-PNP(代词短语内部) - 字段名:ner_tags(命名实体识别标签,Named Entity Recognition Tags),数据类型:序列类别标签,其标签映射如下: '0': O(其他) '1': B-PER(人物实体起始) '2': I-PER(人物实体内部) '3': B-ORG(组织实体起始) '4': I-ORG(组织实体内部) '5': B-LOC(地点实体起始) '6': I-LOC(地点实体内部) '7': B-MISC(混合实体起始) '8': I-MISC(混合实体内部) '9': B-NAT(民族/国籍实体起始) '10': I-NAT(民族/国籍实体内部) '11': B-AGE(年龄实体起始) '12': I-AGE(年龄实体内部) 数据集划分: - 划分名称:train(训练集),字节大小:2241259,样本数量:1280 - 划分名称:validation(验证集),字节大小:591752,样本数量:320 - 划分名称:test(测试集),字节大小:703855,样本数量:400 下载大小:482626,总数据集大小:3536866 配置项: - 配置名称:default(默认配置),对应数据文件: - 训练集:data/train-* - 验证集:data/validation-* - 测试集:data/test-*
提供机构:
ICT2214Team7
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作