five

knowledgator/GLINER-multi-task-synthetic-data

收藏
Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/knowledgator/GLINER-multi-task-synthetic-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练GLiNER多任务模型的官方合成数据集。数据集由一系列字典组成,每个字典包含分词后的文本和命名实体识别(NER)信息。每个项目主要由两部分组成:tokenized_text(分词后的文本)和ner(命名实体识别信息)。数据集预标注了Llama3-8B模型处理的维基百科文章。支持的任务包括命名实体识别、关系抽取、摘要生成、情感提取、关键词提取、问答和开放信息提取。

This is an official synthetic dataset used to train the GLiNER multi-task model. The dataset consists of a list of dictionaries, each containing tokenized text and named entity recognition (NER) information. Each item primarily consists of two components: tokenized_text (the tokenized text) and ner (NER information). The dataset was pre-annotated with Llama3-8B processing Wikipedia articles. Supported tasks include named entity recognition, relation extraction, summarization, sentiment extraction, key-phrase extraction, question-answering, and open information extraction.
提供机构:
knowledgator
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 令牌分类
  • 语言:
    • 英语
  • 标签:
    • NER
    • 信息提取
    • 问答
    • 摘要
    • 清洗
  • 规模:
    • 10K<n<100K

数据集描述

  • 数据集类型: 合成数据集,用于训练GLiNER多任务模型。
  • 数据结构:
    • 包含字典列表,每个字典包含两个主要组件:
      1. tokenized_text: 原始文本的分词列表,包含单词和标点符号。
      2. ner: 命名实体识别信息列表,每个内部列表包含三个元素:
        • 命名实体在分词文本中的起始索引
        • 命名实体在分词文本中的结束索引
        • 识别实体的标签 match

支持的任务

  • 命名实体识别 (NER): 识别并分类文本中的实体,如人名、组织、日期等。
  • 关系提取: 检测并分类文本中实体之间的关系。
  • 摘要: 提取并总结输入文本中的重要句子,捕捉关键信息。
  • 情感提取: 识别文本中表达正面、负面或中性情感的部分。
  • 关键词提取: 识别并提取文本中的重要短语和关键词。
  • 问答: 根据问题在文本中找到答案。
  • 开放信息提取: 根据用户开放提示提取文本片段,例如产品描述提取。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作