来自VnExpress的叙事文本的指代消解

arXiv2025-04-28 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.19606v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自VnExpress新闻平台的266篇叙事文本，经过人工标注用于指代消解任务。数据集主要关注标注实体的定义和一致性，并通过Coreference Annotation Tool with SACR工具进行标注。数据集的创建旨在为越南自然语言处理中的指代消解任务提供高质量的标注数据，并探索大型语言模型在解决低资源语言中的指代消解问题。

This dataset comprises 266 narrative texts sourced from the VnExpress news platform, which were manually annotated for coreference resolution tasks. The dataset primarily focuses on the definition and consistency of annotated entities, and was annotated using the Coreference Annotation Tool with SACR. The dataset was developed to provide high-quality annotated data for coreference resolution tasks in Vietnamese natural language processing, and to explore the application of large language models (LLMs) in solving coreference resolution issues in low-resource languages.

提供机构：

越南信息技术大学，胡志明市，越南越南国立大学，胡志明市，越南

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

该数据集构建于越南主流在线新闻平台VnExpress的叙事文本，采用分层抽样方法从原始1,041篇文本中选取266篇作为研究样本。通过开源工具Coreference Annotation Tool with SACR进行人工标注，标注过程严格遵循四项实体定义准则：仅标注人物指称、包含人群组织、排除形容词修饰成分及处理嵌套所有格结构。标注结果以{M{tag_number}实体名称}的标准化格式存储，确保指代链条的可追溯性。

特点

作为越南语首个人工标注的指代消解数据集，其核心价值体现在三方面：语料覆盖人际关系、职场生活等多元叙事主题，具有现实语言代表性；标注规范创新性地处理了越南语特有的所有格嵌套现象；通过人工校验的gold_clusters为模型评估提供可靠基准。数据集特别区分了few-shot（3篇）和evaluation（263篇）子集，平均每篇包含55.1个指称和9.4个实体，文本长度跨度从248至449词，有效支撑小样本学习与系统评估需求。

使用方法

使用该数据集需遵循标准化处理流程：首先将原始文本转换为[指称]#标签的索引格式，构建包含输入文本和gold_clusters元组的提示模板。通过few-shot学习方式引导大语言模型（如GPT-4）生成指代簇预测，采用CONLL F1（综合MUC、B-Cubed和CEAFφ指标）作为核心评估标准。研究证实，该数据集特别适合验证模型对越南语复杂指代关系的处理能力，最佳实践表明GPT-4在该任务上达到0.735的CONLL F1值，显著优于GPT-3.5-Turbo的0.478表现。

背景与挑战

背景概述

越南叙事文本指代消解数据集由越南信息技术大学和越南国立大学的研究团队于2023年创建，旨在解决越南语这一低资源语言在自然语言处理中的指代消解问题。该数据集基于越南主流新闻平台VnExpress的叙事文本构建，涵盖了日常生活、社会关系等多样化主题。作为越南首个专注于叙事文本指代消解的人工标注数据集，其创新性地制定了针对越南语语法特性的标注规范，并采用SACR标注工具确保标注一致性。该数据集的建立填补了越南语指代消解研究的数据空白，为后续基于大语言模型的越南语文本理解研究提供了重要基础。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，越南语复杂的代词系统和零指代现象对实体关联识别造成显著困难，且缺乏成熟的语法分析工具支持；在构建过程中，标注团队需克服越南语嵌套结构（如'của'属格短语）的歧义解析，以及人称代词性别标记缺失带来的标注一致性难题。此外，数据规模限制（仅266篇文本）与大语言模型few-shot学习需求的矛盾，以及越南语方言变体在新闻文本中的混杂现象，都对该数据集的代表性和泛化能力提出了挑战。

常用场景

经典使用场景

在自然语言处理领域，指代消解是理解文本中实体间关系的关键任务。来自VnExpress的叙事文本的指代消解数据集为越南语这一低资源语言提供了丰富的标注数据，特别适用于训练和评估指代消解模型。该数据集广泛应用于学术研究中，尤其是在探索大型语言模型（如GPT-3.5-Turbo和GPT-4）在低资源语言上的性能表现时，成为基准测试的重要资源。

实际应用

在实际应用中，该数据集为越南语的机器翻译、信息提取和文本摘要等任务提供了重要支持。例如，在新闻摘要生成中，准确的指代消解能够提升摘要的连贯性和可读性。此外，数据集还可用于开发越南语智能助手，帮助用户更高效地处理文本信息。

衍生相关工作

该数据集衍生了一系列相关研究，包括基于大型语言模型的指代消解方法优化、低资源语言跨任务迁移学习等。例如，研究人员利用该数据集验证了GPT-4在越南语指代消解中的高效性，并进一步探索了其在其他东南亚语言中的应用潜力。这些工作为低资源语言的NLP研究提供了新的思路和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集