five

community-datasets/generics_kb

收藏
Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/generics_kb
下载链接
链接失效反馈
官方服务:
资源简介:
GenericsKB数据集是一个包含超过350万句子的知识库,主要包含自然生成的通用句子。这些句子被标注了主题词、上下文信息以及一个基于BERT的置信度评分。数据集还包含GenericsKB-Best子集,该子集包含了质量最高的句子,并补充了从WordNet和ConceptNet中合成的句子。数据集主要用于NLP应用和语言学研究中。
提供机构:
community-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: GenericsKB
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据量: 10K<n<100K 和 1M<n<10M
  • 源数据: 原始数据
  • 任务类别: 其他
  • 标签: 知识库

数据集配置

  • generics_kb_best

    • 特征:
      • source: 字符串
      • term: 字符串
      • quantifier_frequency: 字符串
      • quantifier_number: 字符串
      • generic_sentence: 字符串
      • score: 浮点数
    • 分割:
      • train: 99897719 字节, 1020868 样本
    • 下载大小: 94850525 字节
    • 数据集大小: 99897719 字节
  • generics_kb

    • 特征:
      • source: 字符串
      • term: 字符串
      • quantifier_frequency: 字符串
      • quantifier_number: 字符串
      • generic_sentence: 字符串
      • score: 浮点数
    • 分割:
      • train: 348158966 字节, 3433000 样本
    • 下载大小: 343284785 字节
    • 数据集大小: 348158966 字节
  • generics_kb_simplewiki

    • 特征:
      • source_name: 字符串
      • sentence: 字符串
      • sentences_before: 字符串序列
      • sentences_after: 字符串序列
      • concept_name: 字符串
      • quantifiers: 字符串序列
      • id: 字符串
      • bert_score: 浮点数
      • headings: 字符串序列
      • categories: 字符串序列
    • 分割:
      • train: 10039355 字节, 12765 样本
    • 下载大小: 16437369 字节
    • 数据集大小: 10039355 字节
  • generics_kb_waterloo

    • 特征:
      • source_name: 字符串
      • sentence: 字符串
      • sentences_before: 字符串序列
      • sentences_after: 字符串序列
      • concept_name: 字符串
      • quantifiers: 字符串序列
      • id: 字符串
      • bert_score: 浮点数
    • 分割:
      • train: 4277214701 字节, 3666725 样本
    • 下载大小: 0 字节
    • 数据集大小: 4277214701 字节

数据字段

  • generics_kb_best 和 generics_kb:

    • SOURCE: 通用语句的来源
    • TERM: 通用语句的主题类别
    • GENERIC SENTENCE: 语句本身
    • SCORE: BERT训练的分数,衡量通用语句代表“有用的、普遍真理”的程度
    • QUANTIFIER_FREQUENCY: 包含显式量词(如“通常”、“经常”、“频繁”)的通用语句的量词
    • QUANTIFIER_NUMBER: 包含显式量词(如“所有”、“任何”、“大多数”、“一些”等)的通用语句的量词
  • generics_kb_simplewiki 和 generics_kb_waterloo:

    • source_name: 通用语句来源的语料库名称
    • sentence: 通用语句
    • sentences_before: 原始语料库中通用语句之前的最多五个句子
    • sentences_after: 原始语料库中通用语句之后的最多五个句子
    • concept_name: 通用语句的主题概念
    • quantifiers: 通用语句的关键概念的量词
    • id: 通用语句的唯一标识符
    • bert_score: BERT基于的通用语句分类器的分数
    • headings: 仅适用于SimpleWiki数据集,文章的章节/子章节标题
    • categories: 仅适用于SimpleWiki数据集,文章所属的分类
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作