five

siddharthl1293/engineering_design_facts

收藏
Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/siddharthl1293/engineering_design_facts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含375,084个例句(187,200个正例,187,884个负例),每个例句包括一对实体及其之间的工程设计关系。数据集来源于4,205个USPTO授权的专利,并按照130个类别进行分层。数据集可用于训练标记分类和Seq2Seq转换器模型,以从工件描述中提取明确的工程设计事实。每个示例的输入是使用{HEAD ~ ...}和{TAIL ~ ...}标记的实体对,输出是这对实体之间的关系。

该数据集包含375,084个例句(187,200个正例,187,884个负例),每个例句包括一对实体及其之间的工程设计关系。数据集来源于4,205个USPTO授权的专利,并按照130个类别进行分层。数据集可用于训练标记分类和Seq2Seq转换器模型,以从工件描述中提取明确的工程设计事实。每个示例的输入是使用{HEAD ~ ...}和{TAIL ~ ...}标记的实体对,输出是这对实体之间的关系。
提供机构:
siddharthl1293
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • id: 字符串类型
    • sentence: 字符串类型
    • relation: 字符串类型
    • tokens: 字符串序列
    • tags: 字符串序列
  • 分割:

    • train: 300067个样本,288609496字节
    • test: 37508个样本,36305820字节
    • validation: 37509个样本,36152287字节
  • 下载大小: 107574628字节

  • 数据集大小: 361067603字节

配置

  • 默认配置:
    • train: data/train-*
    • test: data/test-*
    • validation: data/validation-*

许可

  • MIT许可证

任务类别

  • 令牌分类
  • 文本生成
  • 摘要生成

语言

  • 英语

标签

  • 工程设计
  • 知识提取

数据集描述

  • 包含375,084个示例句子,其中187200个为正例,187884个为负例。
  • 每个示例包含一对实体及其之间的工程设计关系。
  • 数据集通过4,205项由USPTO授予的专利中的句子手动构建,按130个类别进行分层。
  • 用于训练令牌分类和Seq2Seq转换器模型,以从工件描述中填充显式的工程设计事实。
  • 每个示例的输入为一对实体,使用{HEAD ~ ...}和{TAIL ~ ...}标记在句子中。
  • 输出为实体对之间的关系,使用句子中的实际令牌标识。如果没有关系,输出为None。
  • 可用于训练Seq2Seq模型(标记句子 --> 关系)和令牌分类模型(标记化标记句子 --> 令牌标签)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作