five

LitBank

收藏
arXiv2020-05-16 更新2024-06-21 收录
下载链接:
https://github.com/dbamman/litbank
下载链接
链接失效反馈
官方服务:
资源简介:
LitBank数据集由加州大学伯克利分校信息学院创建,包含210,532个标记,来自100部英语小说,旨在解决文学文本中的指代问题。数据集的平均文档长度为2,000字,远超其他基准数据集,包含文学中常见的复杂指代问题。该数据集不仅用于评估指代消解系统的性能,还用于分析长距离文档内指代的特点。此外,数据集的应用领域广泛,包括文学分析、角色研究等,为研究文学文本中的指代现象提供了重要资源。

The LitBank dataset, developed by the School of Information at the University of California, Berkeley, consists of 210,532 annotated tokens derived from 100 English novels. It is constructed to tackle coreference-related challenges in literary texts. Boasting an average document length of 2,000 words—far greater than that of most existing benchmark datasets—the dataset encompasses complex coreference issues prevalent in literary works. Beyond serving as a testbed for evaluating the performance of coreference resolution systems, the dataset enables analysis of the characteristics of long-distance intra-document coreference. Furthermore, the dataset has broad applications across fields such as literary analysis and character research, offering a valuable resource for studies on coreference phenomena in literary texts.
提供机构:
加州大学伯克利分校信息学院
创建时间:
2019-12-03
搜集汇总
数据集介绍
main_image_url
构建方式
LitBank数据集的构建源于对文学文本中指代消解研究的迫切需求。该数据集从LitBank原始语料中选取了100部英文小说,涵盖210,532个词汇,并依据OntoNotes的标注框架进行了精细化调整。标注过程采用两阶段流程:首先通过定制命令行界面链接提及项与实体,随后借助BRAT图形界面进行校验。标注范围限定于ACE实体类别,包括人物、地点、组织等六类,并特别纳入了单例提及与量化名词短语,以更贴合文学文本的特性。所有标注由三位经过训练的标注者完成,通过双重标注部分文本确保了高达95.5的MUC一致性分数,体现了标注的高可靠性。
特点
LitBank数据集的显著特点在于其专注于文学领域,平均文档长度达到2,105个词汇,远超OntoNotes等基准数据集。该数据集包含29,103个提及项,其中代词占比过半,反映了文学叙事中高频指代的语言特征。实体分布以人物为主,占比83.1%,凸显了文学文本对角色刻画的侧重。此外,数据集深入捕捉了文学特有的指代现象,如身份揭示、类近同一性以及泛化与具体提及的复杂互动,为研究长距离文档内指代提供了丰富素材。这些特性使得LitBank成为评估跨领域指代消解性能及分析文学叙事结构的宝贵资源。
使用方法
LitBank数据集主要用于评估和训练指代消解系统在文学领域的性能。研究者可借助该数据集测试现有模型(如基于OntoNotes或PreCo训练的模型)在文学文本上的泛化能力,并通过交叉验证分析领域适应性。数据集中提供的实体类别、提及类型及距离分布信息,可用于优化模型架构,例如针对代词短距离指代的特性设计更高效的候选提及筛选机制。此外,该数据集支持对文学实体持久性、突发性模式等叙事特征的量化研究,为人文计算中的角色分析、网络构建等下游任务提供可靠的基础标注。数据集公开可用,便于学术社区进行复现与拓展研究。
背景与挑战
背景概述
在自然语言处理领域,共指消解作为理解文本语义关联的核心任务,其性能评估长期依赖于OntoNotes等基准数据集。然而,这些数据集主要涵盖新闻、对话等短文本领域,难以适应文学文本中特有的长距离共指现象。LitBank数据集由加州大学伯克利分校信息学院的David Bamman、Olivia Lewke与Anya Mansoor于2020年创建,旨在填补文学领域共指标注资源的空白。该数据集收录了100部英语小说中的21万余词符,包含29,103个共指标注,平均文档长度超过2,000词,是传统数据集的四倍以上。其核心研究问题聚焦于跨领域共指消解的性能评估,特别是文学文本中人物、地点等实体在长叙事跨度内的指代关联。LitBank不仅为计算文学研究提供了关键数据基础,还推动了共指消解模型在复杂叙事结构中的泛化能力探索,对数字人文与计算语言学交叉领域产生了深远影响。
当前挑战
LitBank数据集致力于解决文学文本共指消解这一领域核心挑战,其难点体现在文学叙事特有的复杂性上:首先,文学作品中普遍存在长距离共指现象,实体指代可能跨越数千词符,对模型的记忆与关联能力提出更高要求;其次,文学语言包含大量隐喻、代称及身份揭示等叙事手法,如侦探小说中人物身份的渐进披露,增加了共指判定的模糊性。在数据集构建过程中,标注工作面临多重挑战:文学文本中实体类别的分布高度不均衡,人物指代占比超过83%,而组织、车辆等实体标注稀缺;同时,需妥善处理文学特有的共指现象,如泛化指称与具体指称的模糊边界、身份近同性的哲学思辨,以及叙述者与角色视角转换带来的指代歧义。这些因素共同导致标注准则设计需在语言学规范与文学叙事特性间取得平衡,对标注一致性与系统泛化性构成显著考验。
常用场景
经典使用场景
在计算文学研究领域,LitBank数据集为指代消解任务提供了关键资源,尤其适用于分析长篇文学文本中的实体指代关系。该数据集包含100部英语小说中的210,532个标记,平均文档长度远超传统基准数据集,能够有效评估指代消解系统在文学领域的跨域性能。其经典使用场景涉及对文学作品中人物、地点等实体的长距离指代链进行建模,为研究叙事结构和角色演变提供数据支撑。
解决学术问题
LitBank数据集主要解决了指代消解研究中领域泛化能力不足的学术问题。传统指代消解系统如OntoNotes多基于新闻等短文本领域,难以处理文学文本中特有的长距离指代、身份揭示等复杂现象。该数据集通过标注文学特有的指代模式,如类属与特指提及的区分、身份渐进揭示等,为指代消解模型提供了跨域评估基准,推动了自然语言处理领域对文学文本的适应性研究。
衍生相关工作
基于LitBank数据集,衍生出一系列经典研究工作。例如,研究利用该数据集评估神经指代消解模型在文学领域的性能,比较OntoNotes、PreCo等不同训练源的效果。同时,该数据集支撑了文学实体分析的相关探索,如人物网络构建、角色注意力分布测量等。这些工作深化了对文学指代现象的理解,并为计算文学分析方法提供了可靠的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作