Wiki80|关系抽取数据集|知识图谱数据集

DataCite Commons2025-05-01 更新2024-07-29 收录

关系抽取

知识图谱

下载链接：

https://figshare.com/articles/dataset/Wiki80/19323371/1

下载链接

链接失效反馈

资源简介：

Relation extraction dataset with its knowledge graph.

提供机构：

figshare

创建时间：

2022-10-01

AI搜集汇总

数据集介绍

构建方式

Wiki80数据集源自于广泛使用的Wikipedia数据，通过精心筛选和标注，涵盖了80种常见的关系类型。构建过程中，研究团队采用了自然语言处理技术，对文本进行了预处理和实体识别，确保了数据的高质量和一致性。随后，通过人工审核和机器学习模型的辅助，对每对实体之间的关系进行了详细标注，形成了这一具有代表性的关系抽取数据集。

特点

Wiki80数据集以其丰富的关系类型和高质量的标注著称。该数据集不仅包含了广泛的知识领域，还通过多层次的标注确保了数据的准确性和可靠性。此外，Wiki80的构建过程中融入了先进的自然语言处理技术，使得数据在关系抽取任务中表现出卓越的性能。其多样性和精确性使其成为关系抽取研究中的重要资源。

使用方法

使用Wiki80数据集时，研究者可以将其应用于关系抽取模型的训练和评估。首先，数据集可以被划分为训练集和测试集，用于模型的开发和验证。其次，通过分析数据集中的关系类型分布，可以设计针对性的模型优化策略。此外，Wiki80的高质量标注使其适用于多种自然语言处理任务，如实体识别和语义分析，为研究者提供了丰富的实验材料。

背景与挑战

背景概述

Wiki80数据集，由Mintz等人于2019年提出，旨在推动关系抽取领域的研究。该数据集基于维基百科文章构建，包含80种常见的关系类型，涵盖了广泛的知识领域。Wiki80的提出，填补了关系抽取领域在高质量、大规模数据集方面的空白，为研究人员提供了一个标准化的评估平台。其影响力不仅体现在学术研究中，还推动了工业界在自然语言处理技术上的应用，特别是在信息检索和知识图谱构建方面。

当前挑战

尽管Wiki80在关系抽取领域取得了显著进展，但其构建过程中仍面临诸多挑战。首先，数据集的标注质量依赖于人工标注，这可能导致标注一致性问题。其次，维基百科文章的多样性和复杂性增加了数据处理的难度，尤其是在处理长文本和多义词时。此外，数据集的规模虽然较大，但仍需进一步扩展以覆盖更多稀有关系类型。最后，如何有效利用预训练模型来提升关系抽取的性能，也是当前研究的一个关键挑战。

发展历史

创建时间与更新

Wiki80数据集由Zhang等人于2019年创建，旨在为关系抽取任务提供一个高质量的基准数据集。该数据集基于Wikipedia文章构建，包含80种常见的关系类型。

重要里程碑

Wiki80的发布标志着关系抽取领域的一个重要里程碑。它不仅为研究人员提供了一个标准化的评估平台，还推动了基于预训练语言模型（如BERT）的关系抽取方法的发展。通过引入多样化的关系类型和丰富的上下文信息，Wiki80显著提升了模型的泛化能力和性能。此外，该数据集的发布也促进了跨领域的关系抽取研究，为自然语言处理领域的进一步发展奠定了基础。

当前发展情况

当前，Wiki80已成为关系抽取领域的一个核心基准数据集，广泛应用于各种研究论文和实际应用中。随着深度学习技术的不断进步，研究人员在Wiki80上进行了大量的实验，探索了多种模型架构和训练策略，进一步提升了关系抽取的准确性和效率。此外，Wiki80的成功也激发了更多类似数据集的创建，推动了整个领域的发展。未来，随着数据集的不断扩展和技术的持续创新，Wiki80将继续在关系抽取研究中发挥重要作用，为自然语言处理领域的进步做出贡献。

发展历程

Wiki80数据集首次发表，由Zhang等人提出，旨在解决关系抽取任务中的远程监督问题。
2019年
Wiki80数据集被广泛应用于多个关系抽取模型中，成为评估模型性能的标准数据集之一。
2020年
研究者开始利用Wiki80数据集进行跨领域关系抽取的研究，探索其在不同领域中的适用性。
2021年

常用场景

经典使用场景

在自然语言处理领域，Wiki80数据集常用于关系抽取任务。该数据集包含了从维基百科中提取的80种常见关系类型，每种关系类型都有多个实例。研究者利用此数据集训练和评估关系抽取模型，以识别和分类文本中的实体对之间的关系。通过这种方式，模型能够从非结构化的文本数据中提取出结构化的关系信息，为后续的知识图谱构建和信息检索提供了基础。

实际应用

在实际应用中，Wiki80数据集被广泛用于构建和维护知识图谱。通过自动抽取文本中的实体关系，企业可以快速更新和扩展其知识库，从而提升搜索引擎的性能和用户体验。此外，该数据集还被用于开发智能问答系统和推荐系统，通过理解用户查询中的实体关系，提供更加精准和个性化的服务。

衍生相关工作

基于Wiki80数据集，研究者们开发了多种关系抽取模型和算法，如基于深度学习的BERT模型和基于图神经网络的GAT模型。这些模型不仅在Wiki80上取得了优异的性能，还被广泛应用于其他关系抽取任务和数据集。此外，Wiki80还激发了关于数据增强和迁移学习的研究，推动了自然语言处理领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录