siddharthl1293/engineering_design_facts
收藏Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/siddharthl1293/engineering_design_facts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含375,084个例句(187,200个正例,187,884个负例),每个例句包括一对实体及其之间的工程设计关系。数据集来源于4,205个USPTO授权的专利,并按照130个类别进行分层。数据集可用于训练标记分类和Seq2Seq转换器模型,以从工件描述中提取明确的工程设计事实。每个示例的输入是使用{HEAD ~ ...}和{TAIL ~ ...}标记的实体对,输出是这对实体之间的关系。
该数据集包含375,084个例句(187,200个正例,187,884个负例),每个例句包括一对实体及其之间的工程设计关系。数据集来源于4,205个USPTO授权的专利,并按照130个类别进行分层。数据集可用于训练标记分类和Seq2Seq转换器模型,以从工件描述中提取明确的工程设计事实。每个示例的输入是使用{HEAD ~ ...}和{TAIL ~ ...}标记的实体对,输出是这对实体之间的关系。
提供机构:
siddharthl1293
原始信息汇总
数据集概述
数据集信息
-
特征:
id: 字符串类型sentence: 字符串类型relation: 字符串类型tokens: 字符串序列tags: 字符串序列
-
分割:
train: 300067个样本,288609496字节test: 37508个样本,36305820字节validation: 37509个样本,36152287字节
-
下载大小: 107574628字节
-
数据集大小: 361067603字节
配置
- 默认配置:
train:data/train-*test:data/test-*validation:data/validation-*
许可
- MIT许可证
任务类别
- 令牌分类
- 文本生成
- 摘要生成
语言
- 英语
标签
- 工程设计
- 知识提取
数据集描述
- 包含375,084个示例句子,其中187200个为正例,187884个为负例。
- 每个示例包含一对实体及其之间的工程设计关系。
- 数据集通过4,205项由USPTO授予的专利中的句子手动构建,按130个类别进行分层。
- 用于训练令牌分类和Seq2Seq转换器模型,以从工件描述中填充显式的工程设计事实。
- 每个示例的输入为一对实体,使用{HEAD ~ ...}和{TAIL ~ ...}标记在句子中。
- 输出为实体对之间的关系,使用句子中的实际令牌标识。如果没有关系,输出为None。
- 可用于训练Seq2Seq模型(标记句子 --> 关系)和令牌分类模型(标记化标记句子 --> 令牌标签)。



