five

OPIEC

收藏
arXiv2019-04-28 更新2024-06-21 收录
下载链接:
https://www.uni-mannheim.de/dws/research/resources/opiec/
下载链接
链接失效反馈
官方服务:
资源简介:
OPIEC是一个从英文维基百科全文中提取的大型开放信息抽取语料库,由德国曼海姆大学创建。该数据集包含超过3.4亿个三元组,是迄今为止公开可用的最大的OIE语料库。OPIEC不仅数据量大,还包含丰富的元数据信息,如来源信息、置信度评分、语言标注和语义标注,包括空间和时间信息。这些数据对于下游任务如知识库构建、开放式问答或事件模式归纳非常有价值。OPIEC的创建过程涉及使用Stanford CoreNLP管道和先进的OIE系统MinIE进行文本处理。数据集的应用领域广泛,主要用于自动化知识库构建的研究,旨在解决从自然语言文本中无监督地提取关系及其论据的问题。
提供机构:
曼海姆大学
创建时间:
2019-04-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
OPIEC是一个基于整个英文维基百科构建的开放信息抽取(OIE)语料库,包含超过3.41亿个三元组,每个三元组都带有丰富的元数据,如NLP注释、来源句子和链接信息。该数据集旨在支持知识库构建和NLP研究,提供多个版本(如OPIEC-Clean和OPIEC-Link)以适应不同需求,并采用开放许可证(CC-BY-SA和GNU自由文档许可证)促进学术使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作