jclian91/people_relation_classification

Name: jclian91/people_relation_classification
Creator: jclian91
Published: 2023-07-30 03:59:52
License: 暂无描述

Hugging Face2023-07-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jclian91/people_relation_classification

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- 本数据集用于人物关系分类，一共14种关系类型：不确定, 夫妻, 父母, 兄弟姐妹, 上下级, 师生, 好友, 同学, 合作, 同一个人, 情侣, 祖孙, 同门, 亲戚。本数据集共3881条，其中训练集3105条，测试集776条，参看train.csv和test.csv。数据集的人物关系分布如下： ![人物关系数据分布](https://percent4.github.io/img/nlp42_1.png) 关于使用R-BERT模型训练该数据集，可参考文章：[NLP（四十二）人物关系分类的再次尝试](https://percent4.github.io/2023/07/10/NLP%EF%BC%88%E5%9B%9B%E5%8D%81%E4%BA%8C%EF%BC%89%E4%BA%BA%E7%89%A9%E5%85%B3%E7%B3%BB%E5%88%86%E7%B1%BB%E7%9A%84%E5%86%8D%E6%AC%A1%E5%B0%9D%E8%AF%95/).

---许可证：MIT许可证--- 本数据集面向人物关系分类任务，共涵盖14种关系类型：不确定、夫妻、父母、兄弟姐妹、上下级、师生、好友、同学、合作、同一个人、情侣、祖孙、同门、亲戚。本数据集总计包含3881条样本，其中训练集3105条，测试集776条，相关数据文件可参见train.csv与test.csv。数据集的人物关系分布如下： ![人物关系数据分布](https://percent4.github.io/img/nlp42_1.png) 关于使用R-BERT模型训练本数据集的相关方法，可参考文章：[NLP（四十二）人物关系分类的再次尝试](https://percent4.github.io/2023/07/10/NLP%EF%BC%88%E5%9B%9B%E5%8D%81%E4%BA%8C%EF%BC%89%E4%BA%BA%E7%89%A9%E5%85%B3%E7%B3%BB%E5%88%86%E7%B1%BB%E7%9A%84%E5%86%8D%E6%AC%A1%E5%B0%9D%E8%AF%95/)

提供机构：

jclian91

原始信息汇总

数据集概述

数据集用途

本数据集用于人物关系分类。

关系类型

数据集包含14种关系类型：不确定, 夫妻, 父母, 兄弟姐妹, 上下级, 师生, 好友, 同学, 合作, 同一个人, 情侣, 祖孙, 同门, 亲戚。

数据集规模

总数据量：3881条
训练集：3105条
测试集：776条

数据文件

训练集文件：train.csv
测试集文件：test.csv

数据分布

人物关系数据分布详情请查看提供的图片链接：人物关系数据分布

模型训练参考

关于使用R-BERT模型训练该数据集的详细方法，可参考文章：NLP（四十二）人物关系分类的再次尝试

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，人物关系分类任务旨在从文本中识别实体间的语义关联。该数据集通过精心筛选和标注构建而成，共包含3881条数据样本，涵盖14种人物关系类型，如夫妻、父母、师生等。数据被划分为训练集和测试集，其中训练集含3105条，测试集含776条，确保了模型训练与评估的完整性。标注过程注重关系类型的多样性和现实代表性，为后续研究提供了结构化基础。

特点

该数据集的核心特点在于其关系类别的全面性与平衡性，覆盖了从亲密关系到社会角色的多种语义维度。数据分布经过优化，避免了类别偏斜问题，有助于提升分类模型的泛化能力。此外，数据集以CSV格式提供，便于直接加载和处理，同时附有可视化分布图，直观展示了各类关系的样本数量，为研究者分析数据特性提供了便利。

使用方法

使用该数据集时，研究者可首先加载train.csv和test.csv文件，利用自然语言处理框架进行预处理，如分词和向量化。数据集适用于监督学习任务，可结合R-BERT等预训练模型进行微调，以优化人物关系分类性能。参考提供的文章链接，用户能获取详细的训练示例和评估方法，从而高效地应用于学术或工业场景中。

背景与挑战

背景概述

在自然语言处理领域，人物关系分类作为信息抽取的关键子任务，旨在从非结构化文本中识别并归类实体间的人际关系。jclian91/people_relation_classification数据集由研究人员jclian91于2023年构建，专注于中文语境下14种人物关系类型的分类，涵盖夫妻、父母、上下级等常见社会关系。该数据集的创建响应了中文关系抽取研究中缺乏高质量标注资源的迫切需求，为基于深度学习的模型训练提供了重要支撑，推动了关系分类技术在知识图谱构建、智能问答等应用场景中的发展。

当前挑战

人物关系分类任务面临多重挑战：其一，语义歧义性使得模型难以区分关系类型的细微差别，例如“好友”与“同学”在上下文中的重叠；其二，数据稀疏性问题突出，部分关系类型如“祖孙”或“同门”的样本量有限，导致模型泛化能力不足。在构建过程中，挑战主要源于标注一致性，不同标注者对关系边界的主观判断可能引入噪声，且中文表达的多样性与复杂性增加了高质量标注的难度，影响了数据集的平衡性与可靠性。

常用场景

经典使用场景

在自然语言处理领域，人物关系分类是信息抽取任务中的核心环节，旨在从文本中识别并归类实体间的关系类型。jclian91/people_relation_classification数据集以其涵盖的14种关系类别，如夫妻、父母、师生等，为研究者提供了一个标准化的评估基准。该数据集常用于训练和测试关系分类模型，特别是在监督学习框架下，通过分析句子中提及的人物对及其上下文，模型能够学习到语义特征与关系标签之间的映射规律，从而推动关系抽取技术的精进。

解决学术问题

该数据集有效应对了人物关系分类中常见的学术挑战，包括关系类别的细粒度划分、上下文语义的深层理解以及数据稀疏性问题。通过提供标注精准的样本，它助力研究者探索如何利用预训练语言模型，如BERT，结合特定结构（如R-BERT）来捕获实体间的交互信息。这不仅提升了关系分类的准确性与鲁棒性，还为解决自然语言理解中的歧义消解、长距离依赖建模等基础问题提供了实证基础，推动了信息抽取领域向更精细化、智能化方向发展。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，其中以R-BERT模型的适配与优化尤为突出。研究者们借鉴数据集的结构特点，探索了基于注意力机制的实体感知表示方法，提升了关系分类的性能。后续工作进一步扩展至多任务学习、少样本学习等方向，利用数据集的标注信息推动模型泛化能力。这些成果不仅丰富了人物关系抽取的技术栈，还为相关领域如事件抽取、语义角色标注提供了可借鉴的范式，形成了持续的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集