five

DFKI-SLT/knowledge_net

收藏
Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/knowledge_net
下载链接
链接失效反馈
官方服务:
资源简介:
KnowledgeNet 是一个用于自动填充知识库(Wikidata)的基准数据集,包含用自然语言文本表达的详尽标注的事实。该数据集支持对知识库填充系统进行端到端的整体评估,而不仅仅是评估单个子组件(如实体链接、关系抽取)。数据集为单语(英语),并提供了多种配置(knet、knet_re、knet_tokenized)以适应不同的使用场景。

KnowledgeNet is a benchmark dataset for automated knowledge base (Wikidata) population, which contains exhaustively annotated facts expressed in natural language text. This dataset enables end-to-end holistic evaluation of knowledge base population systems, rather than merely evaluating individual sub-components such as entity linking and relation extraction. The dataset is monolingual (English) and provides multiple configurations (knet, knet_re, knet_tokenized) to accommodate various usage scenarios.
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

基本信息

  • 名称: KnowledgeNet
  • 语言: 英语
  • 语言创建者: 发现
  • 多语言性: 单语
  • 规模: 10K<n<100K
  • 任务类别: 文本分类
  • 任务ID: 多类分类, 实体链接分类

数据集结构

数据实例

  • knet:

    • 下载大小: 12.59 MB
    • 生成数据集大小: 10.16 MB
    • 训练集大小: 3977个示例
  • knet_re:

    • 下载大小: 12.59 MB
    • 生成数据集大小: 6.1 MB
    • 训练集大小: 10895个示例
  • knet_tokenized:

    • 下载大小: 12.59 MB
    • 生成数据集大小: 4.5 MB
    • 训练集大小: 10895个示例

数据字段

  • knet:

    • fold: 整数类型
    • documentId: 字符串类型
    • source: 字符串类型
    • documentText: 字符串类型
    • passages: 列表类型,包含多个字典
      • passageId: 字符串类型
      • passageStart: 整数类型
      • passageEnd: 整数类型
      • passageText: 字符串类型
      • exhaustivelyAnnotatedProperties: 列表类型,包含多个字典
        • propertyId: 字符串类型
        • propertyName: 字符串类型
        • propertyDescription: 字符串类型
      • facts: 列表类型,包含多个字典
        • factId: 字符串类型
        • propertyId: 字符串类型
        • humanReadable: 字符串类型
        • annotatedPassage: 字符串类型
        • subjectStart: 整数类型
        • subjectEnd: 整数类型
        • subjectText: 字符串类型
        • subjectUri: 字符串类型
        • objectStart: 整数类型
        • objectEnd: 整数类型
        • objectText: 字符串类型
        • objectUri: 字符串类型
  • knet_re:

    • documentId: 字符串类型
    • passageId: 字符串类型
    • passageText: 字符串类型
    • factId: 字符串类型
    • humanReadable: 字符串类型
    • annotatedPassage: 字符串类型
    • subjectStart: 整数类型
    • subjectEnd: 整数类型
    • subjectText: 字符串类型
    • subjectType: 分类标签类型
    • subjectUri: 字符串类型
    • objectStart: 整数类型
    • objectEnd: 整数类型
    • objectText: 字符串类型
    • objectType: 分类标签类型
    • objectUri: 字符串类型
    • relation: 分类标签类型
  • knet_tokenized:

    • doc_id: 字符串类型
    • passage_id: 字符串类型
    • fact_id: 字符串类型
    • tokens: 列表类型,包含多个字符串
    • subj_start: 整数类型
    • subj_end: 整数类型
    • subj_type: 分类标签类型
    • subj_uri: 字符串类型
    • obj_start: 整数类型
    • obj_end: 整数类型
    • obj_type: 分类标签类型
    • obj_uri: 字符串类型
    • relation: 分类标签类型
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作