community-datasets/generics_kb
收藏Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/generics_kb
下载链接
链接失效反馈官方服务:
资源简介:
GenericsKB数据集是一个包含超过350万句子的知识库,主要包含自然生成的通用句子。这些句子被标注了主题词、上下文信息以及一个基于BERT的置信度评分。数据集还包含GenericsKB-Best子集,该子集包含了质量最高的句子,并补充了从WordNet和ConceptNet中合成的句子。数据集主要用于NLP应用和语言学研究中。
提供机构:
community-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: GenericsKB
- 语言: 英语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据量: 10K<n<100K 和 1M<n<10M
- 源数据: 原始数据
- 任务类别: 其他
- 标签: 知识库
数据集配置
-
generics_kb_best
- 特征:
source: 字符串term: 字符串quantifier_frequency: 字符串quantifier_number: 字符串generic_sentence: 字符串score: 浮点数
- 分割:
train: 99897719 字节, 1020868 样本
- 下载大小: 94850525 字节
- 数据集大小: 99897719 字节
- 特征:
-
generics_kb
- 特征:
source: 字符串term: 字符串quantifier_frequency: 字符串quantifier_number: 字符串generic_sentence: 字符串score: 浮点数
- 分割:
train: 348158966 字节, 3433000 样本
- 下载大小: 343284785 字节
- 数据集大小: 348158966 字节
- 特征:
-
generics_kb_simplewiki
- 特征:
source_name: 字符串sentence: 字符串sentences_before: 字符串序列sentences_after: 字符串序列concept_name: 字符串quantifiers: 字符串序列id: 字符串bert_score: 浮点数headings: 字符串序列categories: 字符串序列
- 分割:
train: 10039355 字节, 12765 样本
- 下载大小: 16437369 字节
- 数据集大小: 10039355 字节
- 特征:
-
generics_kb_waterloo
- 特征:
source_name: 字符串sentence: 字符串sentences_before: 字符串序列sentences_after: 字符串序列concept_name: 字符串quantifiers: 字符串序列id: 字符串bert_score: 浮点数
- 分割:
train: 4277214701 字节, 3666725 样本
- 下载大小: 0 字节
- 数据集大小: 4277214701 字节
- 特征:
数据字段
-
generics_kb_best 和 generics_kb:
SOURCE: 通用语句的来源TERM: 通用语句的主题类别GENERIC SENTENCE: 语句本身SCORE: BERT训练的分数,衡量通用语句代表“有用的、普遍真理”的程度QUANTIFIER_FREQUENCY: 包含显式量词(如“通常”、“经常”、“频繁”)的通用语句的量词QUANTIFIER_NUMBER: 包含显式量词(如“所有”、“任何”、“大多数”、“一些”等)的通用语句的量词
-
generics_kb_simplewiki 和 generics_kb_waterloo:
source_name: 通用语句来源的语料库名称sentence: 通用语句sentences_before: 原始语料库中通用语句之前的最多五个句子sentences_after: 原始语料库中通用语句之后的最多五个句子concept_name: 通用语句的主题概念quantifiers: 通用语句的关键概念的量词id: 通用语句的唯一标识符bert_score: BERT基于的通用语句分类器的分数headings: 仅适用于SimpleWiki数据集,文章的章节/子章节标题categories: 仅适用于SimpleWiki数据集,文章所属的分类



