five

DiS-ReX

收藏
arXiv2021-04-18 更新2024-06-21 收录
下载链接:
https://github.com/dair-iitd/DiS-ReX
下载链接
链接失效反馈
官方服务:
资源简介:
DiS-ReX是由印度理工学院新德里分校创建的多语言关系抽取数据集,包含超过150万条句子,覆盖英语、德语、西班牙语和法语四种语言,涉及36种正向关系类别和1种无关系类别。数据集通过与DBpedia知识库对齐,使用远监督技术生成,旨在解决现有数据集在多语言关系抽取中的不足,提供更真实、更具挑战性的基准。该数据集适用于推动多语言关系抽取领域的研究,特别是在模型泛化能力和跨语言知识转移方面。

DiS-ReX is a multilingual relation extraction dataset developed by the Indian Institute of Technology Delhi. It contains over 1.5 million sentences across four languages: English, German, Spanish and French, encompassing 36 positive relation categories and 1 no-relation category. Generated via distant supervision and aligned with the DBpedia knowledge base, this dataset is designed to address the limitations of existing multilingual relation extraction datasets, offering a more realistic and challenging benchmark. It is applicable to advancing research in the field of multilingual relation extraction, especially regarding model generalization capabilities and cross-lingual knowledge transfer.
提供机构:
印度理工学院新德里分校
创建时间:
2021-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
DiS-ReX数据集通过远监督方法构建,利用维基百科的多语言文本和DBpedia知识库进行关系抽取。首先,从维基百科中提取多语言句子,并使用特定语言的命名实体识别工具检测实体。随后,通过字符串匹配将句子中的实体与DBpedia知识库对齐,并根据知识库中的关系标签对句子进行标注。数据集包含36个正向关系类别和1个无关系类别,确保了数据的真实性和多样性。
特点
DiS-ReX数据集具有多语言特性,涵盖英语、德语、西班牙语和法语,包含超过150万条句子。其特点在于引入了‘无关系’类别,确保了数据集的平衡性和挑战性。此外,数据集中的关系类别分布更加均匀,避免了单一关系类别主导的问题,使得模型在实际应用中更具泛化能力。
使用方法
DiS-ReX数据集可用于多语言远监督关系抽取任务的模型训练与评估。研究者可以使用mBERT等多语言预训练模型对句子进行编码,并结合内部袋注意力机制进行模型训练。数据集提供了两种分割方式:‘未见分割’和‘翻译分割’,分别用于测试模型的泛化能力和跨语言知识迁移能力。通过这些方法,研究者可以评估模型在多语言环境下的表现,并推动该领域的进一步研究。
背景与挑战
背景概述
关系抽取(Relation Extraction, RE)作为信息抽取的重要子任务,旨在从文本中识别实体对之间的特定关系。传统的RE数据集构建依赖于人工标注,导致数据集规模较小且成本高昂。为解决这一问题,Mintz等人于2009年提出了远监督关系抽取(Distant Supervision for Relation Extraction, DS-RE),通过知识库自动标注数据,极大地扩展了数据集的规模。然而,现有研究主要集中在英语领域,缺乏多语言数据集的支持。DiS-ReX数据集由印度理工学院新德里分校的研究团队于2021年提出,旨在填补这一空白。该数据集包含超过150万条句子,涵盖英语、德语、西班牙语和法语,包含36种关系类别及1种无关系类别,为多语言远监督关系抽取提供了首个大规模基准数据集。
当前挑战
DiS-ReX数据集的构建面临多重挑战。首先,多语言数据集的构建需要克服语言间的语义差异,确保跨语言知识迁移的有效性。其次,数据集中存在类别不平衡问题,尤其是某些关系类别(如国家关系)的样本数量远超其他类别,这可能导致模型在训练过程中偏向于预测高频类别。此外,数据集中缺乏负样本(即无关系的句子),这使得模型性能的评估存在偏差。为解决这些问题,DiS-ReX引入了更多的负样本,并限制了每个关系类别的最大样本数量,以提升数据集的平衡性和挑战性。最后,多语言数据集的标注一致性也是一个重要挑战,确保不同语言中的实体对关系标注的准确性和一致性是构建高质量数据集的关键。
常用场景
经典使用场景
DiS-ReX数据集的经典使用场景主要集中在多语言远监督关系抽取任务中。该数据集通过整合英语、德语、西班牙语和法语的语料,提供了超过150万条句子,涵盖36种关系类别及1种‘无关系’类别。研究者可以利用该数据集训练多语言关系抽取模型,通过mBERT编码和内部袋注意力机制,实现跨语言的知识迁移和语义一致性捕捉。
解决学术问题
DiS-ReX数据集解决了现有多语言远监督关系抽取数据集中的几个关键问题,如缺乏负样本、关系类别语义距离过大以及数据集极度不平衡等。这些问题导致模型性能被高估,无法真实反映其在实际应用中的表现。DiS-ReX通过引入‘无关系’类别、增加多标签实例以及平衡各类别分布,为多语言关系抽取研究提供了更为真实和挑战性的基准。
衍生相关工作
DiS-ReX数据集的发布催生了一系列相关研究工作,特别是在多语言关系抽取和跨语言知识迁移领域。研究者们基于该数据集提出了多种改进模型,如结合mBERT的多语言编码器和内部袋注意力机制,进一步提升了模型的跨语言性能。此外,DiS-ReX还激发了对多语言数据集构建和评估方法的深入探讨,推动了多语言自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作