SAnaNotes

github2023-01-28 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/sense-anaphora

下载链接

链接失效反馈

官方服务：

资源简介：

SAnaNotes包含对英语OntoNotes中三分之一内容的sense anaphora注释，采用stand-off格式。数据集提供了额外的列，用于标记sense anaphora信息，其中先行词用方括号标记，而anaphors用圆括号标记。

SAnaNotes encompasses sense anaphora annotations for one-third of the English OntoNotes content, formatted in stand-off style. The dataset includes additional columns for marking sense anaphora information, where antecedents are denoted by square brackets and anaphors by parentheses.

创建时间：

2016-03-30

原始信息汇总

数据集概述

数据集名称: SAnaNotes -- Sense Anaphora in OntoNotes 版本: v1.0 最后更新日期: 2016-03-31

数据集内容

训练集: 688个文档（文件），对应828个文档部分。
开发集: 103个文档（文件），对应104个文档部分。
测试集: 180个文档（文件），对应231个文档部分。

数据集描述

SAnaNotes包含OntoNotes中三分之一英文文档的语义回指标注，采用stand-off格式。OntoNotes数据可从LDC获取（https://catalog.ldc.upenn.edu/LDC2013T19）。

数据集格式

遵循CoNLL-2012 Shared Task的列格式，每行对应一个单独的令牌，每列包含不同语言层面的标注（如词性标签、成分解析树、词根、实体类型、共指）。SAnaNotes提供了一个额外的列，用于表示语义回指信息：先行词用方括号标记，回指词用圆括号标记。

示例文件

文档bn/cnn/01/cnn_0110的部分示例显示，令牌#12是令牌#15的先行词，两者共享相同的ID（即示例中的0）。

引用信息

使用SAnaNotes时，请引用以下论文： Marta Recasens, Zhichao Hu, and Olivia Rhinehart. 2016. Sense Anaphoric Pronouns: Am I One?. In "Proceedings of CORBON 2016".

许可证

SAnaNotes根据cc-by许可证发布（https://creativecommons.org/licenses/by/3.0/us/）。

搜集汇总

数据集介绍

构建方式

SAnaNotes数据集的构建基于OntoNotes语料库，专注于英语文本中的指代消解问题。该数据集通过标注OntoNotes中三分之一的内容，采用独立格式（stand-off format）进行注释，确保了数据的独立性和可扩展性。标注过程中，OntoNotes的长文档被分割为多个部分，每个部分对应一个文件，便于管理和分析。

特点

SAnaNotes数据集的核心特点在于其独特的指代消解标注方式。数据集遵循CoNLL-2012共享任务的列格式，每行对应一个词汇单元，每列包含不同层次的语言学标注信息。特别地，SAnaNotes新增了一列用于标注指代关系，其中前件用方括号标记，指代词用圆括号标记，清晰展示了词汇间的指代关系。这种标注方式为研究指代消解提供了丰富的语言学信息。

使用方法

使用SAnaNotes数据集时，研究者需首先获取OntoNotes语料库的原始文本数据，并将其与SAnaNotes的标注文件对齐。通过解析标注文件中的方括号和圆括号标记，可以识别出文本中的前件和指代词，进而分析指代关系。数据集适用于自然语言处理领域的指代消解任务，研究者可通过分析标注数据，开发或评估指代消解算法。

背景与挑战

背景概述

SAnaNotes数据集于2016年由Marta Recasens、Zhichao Hu和Olivia Rhinehart等人发布，旨在为OntoNotes语料库中的英语文本提供感官回指（sense anaphora）的标注。该数据集基于OntoNotes语料库，专注于解决自然语言处理中的感官回指问题，即识别文本中代词或名词短语与其所指代的前驱词之间的关系。感官回指是自然语言理解中的关键问题之一，尤其在机器翻译、信息抽取和问答系统等应用中具有重要意义。SAnaNotes的发布为相关研究提供了宝贵的资源，推动了感官回指领域的研究进展。

当前挑战

SAnaNotes数据集在构建和应用过程中面临多重挑战。首先，感官回指问题的复杂性在于其涉及语义和语境的深度理解，尤其是在长文本或多文档环境中，识别和标注回指关系尤为困难。其次，数据集的构建依赖于OntoNotes语料库，而OntoNotes本身的分段结构增加了标注的复杂性，需要确保标注的一致性和准确性。此外，感官回指的标注标准尚未完全统一，不同语言和文化背景下的回指现象可能存在显著差异，这对数据集的通用性和可扩展性提出了挑战。最后，尽管SAnaNotes提供了丰富的标注数据，但其规模相对有限，可能限制了模型训练和评估的效果。

常用场景

经典使用场景

SAnaNotes数据集在自然语言处理领域中被广泛用于研究语义指代消解问题。该数据集通过标注OntoNotes语料库中的语义指代关系，为研究者提供了一个标准化的测试平台。特别是在处理长文档时，SAnaNotes通过将文档分割为多个部分，确保了标注的精确性和一致性。这种结构化的标注方式使得研究者能够深入分析语义指代现象，尤其是在新闻文本和叙述性文本中的应用。

实际应用

SAnaNotes数据集在实际应用中具有广泛的价值，尤其是在信息提取、机器翻译和问答系统等领域。通过提供准确的语义指代标注，该数据集能够帮助系统更好地理解文本中的语义关系，从而提高信息提取的准确性和机器翻译的流畅性。此外，SAnaNotes还可以用于训练和评估问答系统，使其能够更准确地回答涉及指代关系的复杂问题。

衍生相关工作

SAnaNotes数据集的发布催生了一系列相关研究，特别是在语义指代消解和自然语言处理领域。许多经典工作基于该数据集开发了新的算法和模型，进一步推动了语义指代消解技术的发展。例如，一些研究利用SAnaNotes的标注信息，提出了基于深度学习的指代消解模型，显著提升了指代消解的准确性和效率。这些工作不仅验证了SAnaNotes的价值，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集