areias/conll2003-generative
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/areias/conll2003-generative
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CoNLL-2003数据集的修改版本,增加了两个新列`sentence`和`entities`,以支持基于LLM的命名实体识别(NER)工作流程。数据集包含四种命名实体:人物(PER)、地点(LOC)、组织(ORG)和杂项(MISC)。工作流程中,LLM被提供句子和包含NER任务指令的提示,并要求输出识别出的命名实体的字典。
该数据集是CoNLL-2003数据集的修改版本,增加了两个新列`sentence`和`entities`,以支持基于LLM的命名实体识别(NER)工作流程。数据集包含四种命名实体:人物(PER)、地点(LOC)、组织(ORG)和杂项(MISC)。工作流程中,LLM被提供句子和包含NER任务指令的提示,并要求输出识别出的命名实体的字典。
提供机构:
areias
原始信息汇总
数据集概述
数据集信息
- 数据集名称: CoNLL-2003 with NER Workflow Enhancements
- 数据集类型: 文本生成、标记分类
- 语言: 英语
- 数据集大小: 10K<n<100K
数据集配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 数据文件:
数据集特征
- id: 字符串类型
- tokens: 字符串序列
- pos_tags: 词性标签序列
- 标签名称:
- 0: "
- 1:
- 2: #
- 3: $
- 4: (
- 5: )
- 6: ,
- 7: .
- 8: :
- 9: ``
- 10: CC
- 11: CD
- 12: DT
- 13: EX
- 14: FW
- 15: IN
- 16: JJ
- 17: JJR
- 18: JJS
- 19: LS
- 20: MD
- 21: NN
- 22: NNP
- 23: NNPS
- 24: NNS
- 25: NN|SYM
- 26: PDT
- 27: POS
- 28: PRP
- 29: PRP$
- 30: RB
- 31: RBR
- 32: RBS
- 33: RP
- 34: SYM
- 35: TO
- 36: UH
- 37: VB
- 38: VBD
- 39: VBG
- 40: VBN
- 41: VBP
- 42: VBZ
- 43: WDT
- 44: WP
- 45: WP$
- 46: WRB
- 标签名称:
- chunk_tags: 块标签序列
- 标签名称:
- 0: O
- 1: B-ADJP
- 2: I-ADJP
- 3: B-ADVP
- 4: I-ADVP
- 5: B-CONJP
- 6: I-CONJP
- 7: B-INTJ
- 8: I-INTJ
- 9: B-LST
- 10: I-LST
- 11: B-NP
- 12: I-NP
- 13: B-PP
- 14: I-PP
- 15: B-PRT
- 16: I-PRT
- 17: B-SBAR
- 18: I-SBAR
- 19: B-UCP
- 20: I-UCP
- 21: B-VP
- 22: I-VP
- 标签名称:
- ner_tags: 命名实体标签序列
- 标签名称:
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
- 7: B-MISC
- 8: I-MISC
- 标签名称:
- ner_labels: 字符串序列
- sentence: 字符串类型
- entities: 结构化数据
- LOC: 字符串序列
- MISC: 字符串序列
- ORG: 字符串序列
- PER: 字符串序列
数据集分割
- 训练集:
- 字节数: 9823344
- 样本数: 14041
- 验证集:
- 字节数: 2461842
- 样本数: 3250
- 测试集:
- 字节数: 2248983
- 样本数: 3453
数据集大小
- 下载大小: 3369931
- 数据集大小: 14534169



