ICT2214Team7/GPT_Generated_Dataset_Fold1_2000
收藏Hugging Face2024-11-10 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ICT2214Team7/GPT_Generated_Dataset_Fold1_2000
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: pos_tags
sequence:
class_label:
names:
'0': '"'
'1': ''''''
'2': '#'
'3': $
'4': (
'5': )
'6': ','
'7': .
'8': ':'
'9': '``'
'10': CC
'11': CD
'12': DT
'13': EX
'14': FW
'15': IN
'16': JJ
'17': JJR
'18': JJS
'19': LS
'20': MD
'21': NN
'22': NNP
'23': NNPS
'24': NNS
'25': NN|SYM
'26': PDT
'27': POS
'28': PRP
'29': PRP$
'30': RB
'31': RBR
'32': RBS
'33': RP
'34': SYM
'35': TO
'36': UH
'37': VB
'38': VBD
'39': VBG
'40': VBN
'41': VBP
'42': VBZ
'43': WDT
'44': WP
'45': WP$
'46': WRB
- name: chunk_tags
sequence:
class_label:
names:
'0': O
'1': B-ADJP
'2': I-ADJP
'3': B-ADVP
'4': I-ADVP
'5': B-CONJP
'6': I-CONJP
'7': B-INTJ
'8': I-INTJ
'9': B-LST
'10': I-LST
'11': B-NP
'12': I-NP
'13': B-PP
'14': I-PP
'15': B-PRT
'16': I-PRT
'17': B-SBAR
'18': I-SBAR
'19': B-UCP
'20': I-UCP
'21': B-VP
'22': I-VP
'23': B-PNP
'24': I-PNP
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
'9': B-NAT
'10': I-NAT
'11': B-AGE
'12': I-AGE
splits:
- name: train
num_bytes: 2241259
num_examples: 1280
- name: validation
num_bytes: 591752
num_examples: 320
- name: test
num_bytes: 703855
num_examples: 400
download_size: 482626
dataset_size: 3536866
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 字段名:id,数据类型:字符串
- 字段名:tokens,数据类型:字符串序列
- 字段名:pos_tags(词性标注标签,POS Tags),数据类型:序列类别标签,其标签映射如下:
'0': 双引号
'1': 单引号
'2': 井号
'3': 美元符号
'4': 左括号
'5': 右括号
'6': 逗号
'7': 句号
'8': 冒号
'9': 左双引号(``)
'10': CC(并列连词)
'11': CD(基数词)
'12': DT(限定词)
'13': EX(存在句引导词there)
'14': FW(外来词)
'15': IN(介词/从属连词)
'16': JJ(形容词)
'17': JJR(形容词比较级)
'18': JJS(形容词最高级)
'19': LS(列表项标记)
'20': MD(情态动词)
'21': NN(单数普通名词)
'22': NNP(单数专有名词)
'23': NNPS(复数专有名词)
'24': NNS(复数普通名词)
'25': NN|SYM(名词|符号)
'26': PDT(前置限定词)
'27': POS(所有格后缀)
'28': PRP(人称代词)
'29': PRP$(形容词性物主代词)
'30': RB(副词)
'31': RBR(副词比较级)
'32': RBS(副词最高级)
'33': RP(小品词)
'34': SYM(符号)
'35': TO(不定式标记)
'36': UH(感叹词)
'37': VB(动词原形)
'38': VBD(动词过去式)
'39': VBG(现在分词/动名词)
'40': VBN(过去分词)
'41': VBP(非第三人称单数现在时动词)
'42': VBZ(第三人称单数现在时动词)
'43': WDT(疑问限定词)
'44': WP(疑问代词)
'45': WP$(疑问形容词性物主代词)
'46': WRB(疑问副词)
- 字段名:chunk_tags(组块标注标签,Chunk Tags),数据类型:序列类别标签,其标签映射如下:
'0': O(其他)
'1': B-ADJP(形容词短语起始)
'2': I-ADJP(形容词短语内部)
'3': B-ADVP(副词短语起始)
'4': I-ADVP(副词短语内部)
'5': B-CONJP(并列连词短语起始)
'6': I-CONJP(并列连词短语内部)
'7': B-INTJ(感叹词短语起始)
'8': I-INTJ(感叹词短语内部)
'9': B-LST(列表标记起始)
'10': I-LST(列表标记内部)
'11': B-NP(名词短语起始)
'12': I-NP(名词短语内部)
'13': B-PP(介词短语起始)
'14': I-PP(介词短语内部)
'15': B-PRT(小品词短语起始)
'16': I-PRT(小品词短语内部)
'17': B-SBAR(从属分句起始)
'18': I-SBAR(从属分句内部)
'19': B-UCP(非并列成分短语起始)
'20': I-UCP(非并列成分短语内部)
'21': B-VP(动词短语起始)
'22': I-VP(动词短语内部)
'23': B-PNP(代词短语起始)
'24': I-PNP(代词短语内部)
- 字段名:ner_tags(命名实体识别标签,Named Entity Recognition Tags),数据类型:序列类别标签,其标签映射如下:
'0': O(其他)
'1': B-PER(人物实体起始)
'2': I-PER(人物实体内部)
'3': B-ORG(组织实体起始)
'4': I-ORG(组织实体内部)
'5': B-LOC(地点实体起始)
'6': I-LOC(地点实体内部)
'7': B-MISC(混合实体起始)
'8': I-MISC(混合实体内部)
'9': B-NAT(民族/国籍实体起始)
'10': I-NAT(民族/国籍实体内部)
'11': B-AGE(年龄实体起始)
'12': I-AGE(年龄实体内部)
数据集划分:
- 划分名称:train(训练集),字节大小:2241259,样本数量:1280
- 划分名称:validation(验证集),字节大小:591752,样本数量:320
- 划分名称:test(测试集),字节大小:703855,样本数量:400
下载大小:482626,总数据集大小:3536866
配置项:
- 配置名称:default(默认配置),对应数据文件:
- 训练集:data/train-*
- 验证集:data/validation-*
- 测试集:data/test-*
提供机构:
ICT2214Team7



