The Perpetrator Identification corpus, The Screenplay Summarization corpus

github2024-03-28 更新2024-05-31 收录

下载链接：

https://github.com/EdinburghNLP/csi-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

The Perpetrator Identification corpus包含39个CSI剧集的人工标注，用于识别罪犯提及。The Screenplay Summarization corpus包含每个剧集的摘要的人工标注，用于屏幕剧本摘要。

《犯罪者识别语料库》包含对39个CSI剧集进行的人工标注，旨在识别罪犯提及。《剧本摘要语料库》则包含了针对每个剧集的摘要所进行的人工标注，以用于屏幕剧本的摘要。

创建时间：

2017-10-31

原始信息汇总

数据集概述

本数据集包含两个子数据集，均来源于《CSI:Crime Scene Investigation》电视剧第1至5季的39集剧本。

1. 犯罪者识别数据集（Perpetrator Identification corpus）

数据内容：包含39集电视剧中犯罪者的提及信息，包括：
- 词级别的黄金标准实体标注（犯罪者、嫌疑人、其他）
- 人类行为犯罪者猜测（句子级别）
- 案件歧义信息（涉及两个案件的集数）
引用文献：Lea Frermann, Shay B. Cohen, Mirella Lapata (2017) Whodunnit? Crime Drama as a Case for Natural Language Understanding. Transactions of the Association for Computational Linguistics (TACL).
文件格式：每个文件包含一集剧本，每词一行，包含以下标注信息：
- CaseID
- sentID
- speaker
- word
- killer_gold
- other_gold
- suspect_gold
- human_guess
- medion_time
- start_time
- end_time
- i1_time-i5_time

2. 剧本摘要数据集（Screenplay Summarization corpus）

数据内容：包含每集剧本的摘要信息，包括：
- 场景级别的二元标签（是否属于摘要）
- 基于方面的标签（属于摘要的场景）
- 句子级别的二元标签（属于摘要的句子，针对10集）
引用文献：Papalampidi, Pinelopi and Keller, Frank and Frermann, Lea and Lapata, Mirella (2020) Screenplay Summarization Using Latent Narrative Structure. arXiv preprint arXiv:2004.12727.
文件格式：
- scene_level_n_aspects文件夹：包含39个CSV文件，每个文件对应一集，包含以下信息：
  - scene_id
  - scene_text
  - in_summary
  - aspects
- sentence_level文件夹：包含10个CSV文件，每个文件对应一集，包含以下信息：
  - scene_id
  - sentence_id
  - sentence_text
  - in_summary

以上信息均基于提供的README文件内容。

搜集汇总

数据集介绍

构建方式

该数据集基于《CSI:犯罪现场调查》第1至第5季的39集剧本构建，通过人工标注的方式生成了两个子数据集。其中，The Perpetrator Identification corpus通过标注剧本中的词汇级别实体信息，包括凶手、嫌疑人和其他角色，并结合人类行为猜测和案件区分信息，形成了多层次的结构化数据。The Screenplay Summarization corpus则通过标注剧本的场景和句子级别信息，生成与剧集摘要相关的标签，涵盖了犯罪场景、受害者、死因、证据、凶手和动机等多个方面。

特点

该数据集的特点在于其多层次的标注结构，涵盖了词汇、句子和场景级别的信息。The Perpetrator Identification corpus提供了详细的词汇级别实体标注，包括凶手、嫌疑人和其他角色的区分，并结合人类行为猜测，为犯罪剧情的自然语言理解提供了丰富的数据支持。The Screenplay Summarization corpus则通过场景和句子级别的摘要标注，为剧本摘要生成任务提供了多方面的参考，特别是其基于犯罪剧情的特定摘要方面，具有较高的领域针对性。

使用方法

该数据集的使用方法较为灵活，适用于多种自然语言处理任务。The Perpetrator Identification corpus可用于犯罪剧情中的角色识别、凶手预测等任务，其词汇级别和句子级别的标注为模型训练提供了丰富的特征。The Screenplay Summarization corpus则适用于剧本摘要生成任务，其场景和句子级别的标注信息可用于训练和评估摘要生成模型。用户可通过读取CSV文件获取标注数据，并结合相关论文中的方法进行实验和研究。

背景与挑战

背景概述

The Perpetrator Identification corpus与The Screenplay Summarization corpus数据集源自对《CSI:犯罪现场调查》前五季39集剧本的标注研究。该数据集由Lea Frermann、Shay B. Cohen和Mirella Lapata等研究人员于2017年首次提出，旨在通过自然语言理解技术解决犯罪剧中的关键问题，如罪犯识别与剧本摘要生成。The Perpetrator Identification corpus专注于通过词级和句级标注识别罪犯、嫌疑人及其他角色，而The Screenplay Summarization corpus则通过场景级和句级标注生成剧本摘要。这些数据集为自然语言处理领域提供了宝贵的资源，特别是在叙事结构理解与信息提取方面具有重要影响力。

当前挑战

The Perpetrator Identification corpus面临的挑战在于如何从复杂的犯罪剧情中准确识别罪犯，尤其是在多案件交织的剧集中，标注的精确性和一致性成为关键问题。此外，数据集构建过程中需结合视听特征，这要求研究者获取原始剧集资源，增加了数据获取的复杂性。The Screenplay Summarization corpus的挑战则在于如何从长篇剧本中提取关键信息生成摘要，同时需考虑场景与句子的多层次标注，确保摘要的连贯性与完整性。这些挑战不仅反映了数据集构建的技术难度，也凸显了自然语言处理在叙事理解与信息压缩领域的复杂性。

常用场景

经典使用场景

在自然语言处理领域，The Perpetrator Identification corpus和The Screenplay Summarization corpus被广泛应用于犯罪剧情的理解和剧本摘要生成。前者通过标注犯罪剧集中的凶手、嫌疑人及其他角色，为研究者提供了丰富的实体识别和情感分析数据；后者则通过场景和句子级别的摘要标注，支持了剧本摘要生成和叙事结构分析的研究。

衍生相关工作

基于这两个数据集，研究者们开展了多项经典工作。例如，Lea Frermann等人利用The Perpetrator Identification corpus提出了犯罪剧情理解的新方法，推动了自然语言理解领域的发展；Pinelopi Papalampidi等人则利用The Screenplay Summarization corpus提出了基于潜在叙事结构的剧本摘要生成方法，为剧本分析提供了新的视角。

数据集最近研究