knowledgator/GLINER-multi-task-synthetic-data

Name: knowledgator/GLINER-multi-task-synthetic-data
Creator: knowledgator
Published: 2024-07-15 10:46:43
License: 暂无描述

Hugging Face2024-07-15 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/knowledgator/GLINER-multi-task-synthetic-data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练GLiNER多任务模型的官方合成数据集。数据集由一系列字典组成，每个字典包含分词后的文本和命名实体识别（NER）信息。每个项目主要由两部分组成：tokenized_text（分词后的文本）和ner（命名实体识别信息）。数据集预标注了Llama3-8B模型处理的维基百科文章。支持的任务包括命名实体识别、关系抽取、摘要生成、情感提取、关键词提取、问答和开放信息提取。

This is an official synthetic dataset used to train the GLiNER multi-task model. The dataset consists of a list of dictionaries, each containing tokenized text and named entity recognition (NER) information. Each item primarily consists of two components: tokenized_text (the tokenized text) and ner (NER information). The dataset was pre-annotated with Llama3-8B processing Wikipedia articles. Supported tasks include named entity recognition, relation extraction, summarization, sentiment extraction, key-phrase extraction, question-answering, and open information extraction.

提供机构：

knowledgator

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 令牌分类
语言:
- 英语
标签:
- NER
- 信息提取
- 问答
- 摘要
- 清洗
规模:
- 10K<n<100K

数据集描述

数据集类型: 合成数据集，用于训练GLiNER多任务模型。
数据结构:
- 包含字典列表，每个字典包含两个主要组件：
  1. tokenized_text: 原始文本的分词列表，包含单词和标点符号。
  2. ner: 命名实体识别信息列表，每个内部列表包含三个元素：
    - 命名实体在分词文本中的起始索引
    - 命名实体在分词文本中的结束索引
    - 识别实体的标签 match

支持的任务

命名实体识别 (NER): 识别并分类文本中的实体，如人名、组织、日期等。
关系提取: 检测并分类文本中实体之间的关系。
摘要: 提取并总结输入文本中的重要句子，捕捉关键信息。
情感提取: 识别文本中表达正面、负面或中性情感的部分。
关键词提取: 识别并提取文本中的重要短语和关键词。
问答: 根据问题在文本中找到答案。
开放信息提取: 根据用户开放提示提取文本片段，例如产品描述提取。

5,000+

优质数据集

54 个

任务类型

进入经典数据集