DFKI-SLT/knowledge_net
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/knowledge_net
下载链接
链接失效反馈官方服务:
资源简介:
KnowledgeNet 是一个用于自动填充知识库(Wikidata)的基准数据集,包含用自然语言文本表达的详尽标注的事实。该数据集支持对知识库填充系统进行端到端的整体评估,而不仅仅是评估单个子组件(如实体链接、关系抽取)。数据集为单语(英语),并提供了多种配置(knet、knet_re、knet_tokenized)以适应不同的使用场景。
KnowledgeNet is a benchmark dataset for automated knowledge base (Wikidata) population, which contains exhaustively annotated facts expressed in natural language text. This dataset enables end-to-end holistic evaluation of knowledge base population systems, rather than merely evaluating individual sub-components such as entity linking and relation extraction. The dataset is monolingual (English) and provides multiple configurations (knet, knet_re, knet_tokenized) to accommodate various usage scenarios.
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
基本信息
- 名称: KnowledgeNet
- 语言: 英语
- 语言创建者: 发现
- 多语言性: 单语
- 规模: 10K<n<100K
- 任务类别: 文本分类
- 任务ID: 多类分类, 实体链接分类
数据集结构
数据实例
-
knet:
- 下载大小: 12.59 MB
- 生成数据集大小: 10.16 MB
- 训练集大小: 3977个示例
-
knet_re:
- 下载大小: 12.59 MB
- 生成数据集大小: 6.1 MB
- 训练集大小: 10895个示例
-
knet_tokenized:
- 下载大小: 12.59 MB
- 生成数据集大小: 4.5 MB
- 训练集大小: 10895个示例
数据字段
-
knet:
fold: 整数类型documentId: 字符串类型source: 字符串类型documentText: 字符串类型passages: 列表类型,包含多个字典passageId: 字符串类型passageStart: 整数类型passageEnd: 整数类型passageText: 字符串类型exhaustivelyAnnotatedProperties: 列表类型,包含多个字典propertyId: 字符串类型propertyName: 字符串类型propertyDescription: 字符串类型
facts: 列表类型,包含多个字典factId: 字符串类型propertyId: 字符串类型humanReadable: 字符串类型annotatedPassage: 字符串类型subjectStart: 整数类型subjectEnd: 整数类型subjectText: 字符串类型subjectUri: 字符串类型objectStart: 整数类型objectEnd: 整数类型objectText: 字符串类型objectUri: 字符串类型
-
knet_re:
documentId: 字符串类型passageId: 字符串类型passageText: 字符串类型factId: 字符串类型humanReadable: 字符串类型annotatedPassage: 字符串类型subjectStart: 整数类型subjectEnd: 整数类型subjectText: 字符串类型subjectType: 分类标签类型subjectUri: 字符串类型objectStart: 整数类型objectEnd: 整数类型objectText: 字符串类型objectType: 分类标签类型objectUri: 字符串类型relation: 分类标签类型
-
knet_tokenized:
doc_id: 字符串类型passage_id: 字符串类型fact_id: 字符串类型tokens: 列表类型,包含多个字符串subj_start: 整数类型subj_end: 整数类型subj_type: 分类标签类型subj_uri: 字符串类型obj_start: 整数类型obj_end: 整数类型obj_type: 分类标签类型obj_uri: 字符串类型relation: 分类标签类型



