knowledgator/GLINER-multi-task-synthetic-data
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/knowledgator/GLINER-multi-task-synthetic-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练GLiNER多任务模型的官方合成数据集。数据集由一系列字典组成,每个字典包含分词后的文本和命名实体识别(NER)信息。每个项目主要由两部分组成:tokenized_text(分词后的文本)和ner(命名实体识别信息)。数据集预标注了Llama3-8B模型处理的维基百科文章。支持的任务包括命名实体识别、关系抽取、摘要生成、情感提取、关键词提取、问答和开放信息提取。
This is an official synthetic dataset used to train the GLiNER multi-task model. The dataset consists of a list of dictionaries, each containing tokenized text and named entity recognition (NER) information. Each item primarily consists of two components: tokenized_text (the tokenized text) and ner (NER information). The dataset was pre-annotated with Llama3-8B processing Wikipedia articles. Supported tasks include named entity recognition, relation extraction, summarization, sentiment extraction, key-phrase extraction, question-answering, and open information extraction.
提供机构:
knowledgator
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别:
- 令牌分类
- 语言:
- 英语
- 标签:
- NER
- 信息提取
- 问答
- 摘要
- 清洗
- 规模:
- 10K<n<100K
数据集描述
- 数据集类型: 合成数据集,用于训练GLiNER多任务模型。
- 数据结构:
- 包含字典列表,每个字典包含两个主要组件:
tokenized_text: 原始文本的分词列表,包含单词和标点符号。ner: 命名实体识别信息列表,每个内部列表包含三个元素:- 命名实体在分词文本中的起始索引
- 命名实体在分词文本中的结束索引
- 识别实体的标签 match
- 包含字典列表,每个字典包含两个主要组件:
支持的任务
- 命名实体识别 (NER): 识别并分类文本中的实体,如人名、组织、日期等。
- 关系提取: 检测并分类文本中实体之间的关系。
- 摘要: 提取并总结输入文本中的重要句子,捕捉关键信息。
- 情感提取: 识别文本中表达正面、负面或中性情感的部分。
- 关键词提取: 识别并提取文本中的重要短语和关键词。
- 问答: 根据问题在文本中找到答案。
- 开放信息提取: 根据用户开放提示提取文本片段,例如产品描述提取。



