wardenga/lsoie

Name: wardenga/lsoie
Creator: wardenga
Published: 2022-10-21 05:51:54
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wardenga/lsoie

下载链接

链接失效反馈

官方服务：

资源简介：

LSOIE（大规模开放信息抽取数据集）是一个比现有最大人工标注开放信息抽取（OIE）数据集大20倍的数据集。该数据集基于QA-SRL 2.0数据集构建，通过将每个谓词的问题和答案列表转换为表示事实的元组。数据集的语言为英语，任务类别为文本检索，标签包括开放信息抽取。

LSOIE (Large-Scale Open Information Extraction Dataset) is a dataset 20 times larger than the largest existing manually annotated Open Information Extraction (OIE) dataset. Built upon the QA-SRL 2.0 dataset, it converts the question-answer pairs for each predicate into tuples representing factual statements. The dataset is in English, with its task category being text retrieval, and the labels include Open Information Extraction.

提供机构：

wardenga

原始信息汇总

数据集概述

数据集名称

名称: LSOIE
全称: Large Scale Open Information Extraction Dataset

数据集基本信息

语言: 英语 (en)
许可证: MIT
多语言性: 单语
注释创建者: 机器生成
语言创建者: 发现
大小类别: 未知
源数据集: 扩展自 qa_srl
任务类别: 文本检索
标签: 开放信息抽取

数据集描述

摘要: LSOIE 是一个比最大的手工标注开放信息抽取 (OIE) 数据集大20倍的数据集。它基于 QA-SRL 2.0 数据集，将每个谓词的问题和答案列表转换为表示事实的元组。
支持的任务: 开放信息抽取

数据集结构

数据实例: 每个数据点包含一个事实及其提取的句子。每个事实由元组 $(a_0, p, a_1,dots a_n)$ 表示，其中 $a_0$ 是头部实体，$p$ 是谓词，$a_1, dots,a_n$ 表示尾部。
数据字段:
- word_ids: 句子中标记的索引序列 (整数)
- words: 句子中的标记序列 (字符串)
- pred: 事实的谓词
- pred_ids: 谓词中标记的ID
- head_pred_id: 谓词中头部标记的ID
- sent_id: 句子ID
- run_id:
- label: 表示事实的标签序列 (BIO)

数据集创建

注释: 机器生成

使用数据集的考虑

社会影响: 未提供
偏见讨论: 未提供
其他已知限制: 未提供

附加信息

数据集管理员: 未提供
许可证信息: 未提供
引用信息: 未提供

5,000+

优质数据集

54 个

任务类型

进入经典数据集