ICT2214Team7/GPT_Generated_Dataset_V2_1000
收藏Hugging Face2024-11-02 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ICT2214Team7/GPT_Generated_Dataset_V2_1000
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: pos_tags
sequence:
class_label:
names:
'0': '"'
'1': ''''''
'2': '#'
'3': $
'4': (
'5': )
'6': ','
'7': .
'8': ':'
'9': '``'
'10': CC
'11': CD
'12': DT
'13': EX
'14': FW
'15': IN
'16': JJ
'17': JJR
'18': JJS
'19': LS
'20': MD
'21': NN
'22': NNP
'23': NNPS
'24': NNS
'25': NN|SYM
'26': PDT
'27': POS
'28': PRP
'29': PRP$
'30': RB
'31': RBR
'32': RBS
'33': RP
'34': SYM
'35': TO
'36': UH
'37': VB
'38': VBD
'39': VBG
'40': VBN
'41': VBP
'42': VBZ
'43': WDT
'44': WP
'45': WP$
'46': WRB
- name: chunk_tags
sequence:
class_label:
names:
'0': O
'1': B-ADJP
'2': I-ADJP
'3': B-ADVP
'4': I-ADVP
'5': B-CONJP
'6': I-CONJP
'7': B-INTJ
'8': I-INTJ
'9': B-LST
'10': I-LST
'11': B-NP
'12': I-NP
'13': B-PP
'14': I-PP
'15': B-PRT
'16': I-PRT
'17': B-SBAR
'18': I-SBAR
'19': B-UCP
'20': I-UCP
'21': B-VP
'22': I-VP
'23': B-PNP
'24': I-PNP
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
'9': B-NAT
'10': I-NAT
'11': B-AGE
'12': I-AGE
splits:
- name: train
num_bytes: 1418769
num_examples: 800
- name: validation
num_bytes: 177736
num_examples: 100
- name: test
num_bytes: 144416
num_examples: 100
download_size: 244493
dataset_size: 1740921
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
dataset_info:
特征:
- 名称:id
数据类型:字符串
- 名称:tokens
序列:字符串
- 名称:词性标签(pos_tags)
序列:
类别标签:
名称:
'0':双引号
'1':单引号('')
'2':#
'3':$
'4':(
'5':)
'6':,
'7':.
'8'::
'9':左双引号(``)
'10':并列连词(CC)
'11':基数词(CD)
'12':限定词(DT)
'13':存在词(EX)
'14':外来词(FW)
'15':介词/从属连词(IN)
'16':形容词(JJ)
'17':形容词比较级(JJR)
'18':形容词最高级(JJS)
'19':列表项标记(LS)
'20':情态动词(MD)
'21':普通名词单数(NN)
'22':专有名词单数(NNP)
'23':专有名词复数(NNPS)
'24':普通名词复数(NNS)
'25':名词/符号(NN|SYM)
'26':前限定词(PDT)
'27':所有格标记(POS)
'28':人称代词(PRP)
'29':物主代词(PRP$)
'30':副词(RB)
'31':副词比较级(RBR)
'32':副词最高级(RBS)
'33':小品词(RP)
'34':符号(SYM)
'35':不定式标记(TO)
'36':感叹词(UH)
'37':动词原形(VB)
'38':动词过去式(VBD)
'39':动词现在分词(VBG)
'40':动词过去分词(VBN)
'41':动词原形(非第三人称单数现在时)(VBP)
'42':动词第三人称单数现在时(VBZ)
'43':关系限定词(WDT)
'44':疑问代词(WP)
'45':疑问物主代词(WP$)
'46':疑问副词(WRB)
- 名称:组块标签(chunk_tags)
序列:
类别标签:
名称:
'0':无标记(O)
'1':形容词短语起始(B-ADJP)
'2':形容词短语内部(I-ADJP)
'3':副词短语起始(B-ADVP)
'4':副词短语内部(I-ADVP)
'5':连词短语起始(B-CONJP)
'6':连词短语内部(I-CONJP)
'7':感叹词短语起始(B-INTJ)
'8':感叹词短语内部(I-INTJ)
'9':列表项短语起始(B-LST)
'10':列表项短语内部(I-LST)
'11':名词短语起始(B-NP)
'12':名词短语内部(I-NP)
'13':介词短语起始(B-PP)
'14':介词短语内部(I-PP)
'15':小品词短语起始(B-PRT)
'16':小品词短语内部(I-PRT)
'17':从属分句起始(B-SBAR)
'18':从属分句内部(I-SBAR)
'19':并列结构短语起始(B-UCP)
'20':并列结构短语内部(I-UCP)
'21':动词短语起始(B-VP)
'22':动词短语内部(I-VP)
'23':专有名词短语起始(B-PNP)
'24':专有名词短语内部(I-PNP)
- 名称:命名实体识别标签(ner_tags)
序列:
类别标签:
名称:
'0':无标记(O)
'1':人名起始(B-PER)
'2':人名内部(I-PER)
'3':机构起始(B-ORG)
'4':机构内部(I-ORG)
'5':地点起始(B-LOC)
'6':地点内部(I-LOC)
'7':其他实体起始(B-MISC)
'8':其他实体内部(I-MISC)
'9':国家/民族起始(B-NAT)
'10':国家/民族内部(I-NAT)
'11':年龄起始(B-AGE)
'12':年龄内部(I-AGE)
拆分:
- 名称:训练集
字节数:1418769
样本数:800
- 名称:验证集
字节数:177736
样本数:100
- 名称:测试集
字节数:144416
样本数:100
下载大小:244493
数据集大小:1740921
配置:
- 配置名称:默认
数据文件:
- 拆分:训练集
路径:data/train-*
- 拆分:验证集
路径:data/validation-*
- 拆分:测试集
路径:data/test-*
提供机构:
ICT2214Team7



