five

The Perpetrator Identification corpus, The Screenplay Summarization corpus

收藏
github2024-03-28 更新2024-05-31 收录
下载链接:
https://github.com/EdinburghNLP/csi-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
The Perpetrator Identification corpus包含39个CSI剧集的人工标注,用于识别罪犯提及。The Screenplay Summarization corpus包含每个剧集的摘要的人工标注,用于屏幕剧本摘要。

《犯罪者识别语料库》包含对39个CSI剧集进行的人工标注,旨在识别罪犯提及。《剧本摘要语料库》则包含了针对每个剧集的摘要所进行的人工标注,以用于屏幕剧本的摘要。
创建时间:
2017-10-31
原始信息汇总

数据集概述

本数据集包含两个子数据集,均来源于《CSI:Crime Scene Investigation》电视剧第1至5季的39集剧本。

1. 犯罪者识别数据集(Perpetrator Identification corpus)

  • 数据内容:包含39集电视剧中犯罪者的提及信息,包括:
    • 词级别的黄金标准实体标注(犯罪者、嫌疑人、其他)
    • 人类行为犯罪者猜测(句子级别)
    • 案件歧义信息(涉及两个案件的集数)
  • 引用文献:Lea Frermann, Shay B. Cohen, Mirella Lapata (2017) Whodunnit? Crime Drama as a Case for Natural Language Understanding. Transactions of the Association for Computational Linguistics (TACL).
  • 文件格式:每个文件包含一集剧本,每词一行,包含以下标注信息:
    • CaseID
    • sentID
    • speaker
    • word
    • killer_gold
    • other_gold
    • suspect_gold
    • human_guess
    • medion_time
    • start_time
    • end_time
    • i1_time-i5_time

2. 剧本摘要数据集(Screenplay Summarization corpus)

  • 数据内容:包含每集剧本的摘要信息,包括:
    • 场景级别的二元标签(是否属于摘要)
    • 基于方面的标签(属于摘要的场景)
    • 句子级别的二元标签(属于摘要的句子,针对10集)
  • 引用文献:Papalampidi, Pinelopi and Keller, Frank and Frermann, Lea and Lapata, Mirella (2020) Screenplay Summarization Using Latent Narrative Structure. arXiv preprint arXiv:2004.12727.
  • 文件格式
    • scene_level_n_aspects文件夹:包含39个CSV文件,每个文件对应一集,包含以下信息:
      • scene_id
      • scene_text
      • in_summary
      • aspects
    • sentence_level文件夹:包含10个CSV文件,每个文件对应一集,包含以下信息:
      • scene_id
      • sentence_id
      • sentence_text
      • in_summary

以上信息均基于提供的README文件内容。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于《CSI:犯罪现场调查》第1至第5季的39集剧本构建,通过人工标注的方式生成了两个子数据集。其中,The Perpetrator Identification corpus通过标注剧本中的词汇级别实体信息,包括凶手、嫌疑人和其他角色,并结合人类行为猜测和案件区分信息,形成了多层次的结构化数据。The Screenplay Summarization corpus则通过标注剧本的场景和句子级别信息,生成与剧集摘要相关的标签,涵盖了犯罪场景、受害者、死因、证据、凶手和动机等多个方面。
特点
该数据集的特点在于其多层次的标注结构,涵盖了词汇、句子和场景级别的信息。The Perpetrator Identification corpus提供了详细的词汇级别实体标注,包括凶手、嫌疑人和其他角色的区分,并结合人类行为猜测,为犯罪剧情的自然语言理解提供了丰富的数据支持。The Screenplay Summarization corpus则通过场景和句子级别的摘要标注,为剧本摘要生成任务提供了多方面的参考,特别是其基于犯罪剧情的特定摘要方面,具有较高的领域针对性。
使用方法
该数据集的使用方法较为灵活,适用于多种自然语言处理任务。The Perpetrator Identification corpus可用于犯罪剧情中的角色识别、凶手预测等任务,其词汇级别和句子级别的标注为模型训练提供了丰富的特征。The Screenplay Summarization corpus则适用于剧本摘要生成任务,其场景和句子级别的标注信息可用于训练和评估摘要生成模型。用户可通过读取CSV文件获取标注数据,并结合相关论文中的方法进行实验和研究。
背景与挑战
背景概述
The Perpetrator Identification corpus与The Screenplay Summarization corpus数据集源自对《CSI:犯罪现场调查》前五季39集剧本的标注研究。该数据集由Lea Frermann、Shay B. Cohen和Mirella Lapata等研究人员于2017年首次提出,旨在通过自然语言理解技术解决犯罪剧中的关键问题,如罪犯识别与剧本摘要生成。The Perpetrator Identification corpus专注于通过词级和句级标注识别罪犯、嫌疑人及其他角色,而The Screenplay Summarization corpus则通过场景级和句级标注生成剧本摘要。这些数据集为自然语言处理领域提供了宝贵的资源,特别是在叙事结构理解与信息提取方面具有重要影响力。
当前挑战
The Perpetrator Identification corpus面临的挑战在于如何从复杂的犯罪剧情中准确识别罪犯,尤其是在多案件交织的剧集中,标注的精确性和一致性成为关键问题。此外,数据集构建过程中需结合视听特征,这要求研究者获取原始剧集资源,增加了数据获取的复杂性。The Screenplay Summarization corpus的挑战则在于如何从长篇剧本中提取关键信息生成摘要,同时需考虑场景与句子的多层次标注,确保摘要的连贯性与完整性。这些挑战不仅反映了数据集构建的技术难度,也凸显了自然语言处理在叙事理解与信息压缩领域的复杂性。
常用场景
经典使用场景
在自然语言处理领域,The Perpetrator Identification corpus和The Screenplay Summarization corpus被广泛应用于犯罪剧情的理解和剧本摘要生成。前者通过标注犯罪剧集中的凶手、嫌疑人及其他角色,为研究者提供了丰富的实体识别和情感分析数据;后者则通过场景和句子级别的摘要标注,支持了剧本摘要生成和叙事结构分析的研究。
衍生相关工作
基于这两个数据集,研究者们开展了多项经典工作。例如,Lea Frermann等人利用The Perpetrator Identification corpus提出了犯罪剧情理解的新方法,推动了自然语言理解领域的发展;Pinelopi Papalampidi等人则利用The Screenplay Summarization corpus提出了基于潜在叙事结构的剧本摘要生成方法,为剧本分析提供了新的视角。
数据集最近研究
最新研究方向
在自然语言处理领域,The Perpetrator Identification corpus 和 The Screenplay Summarization corpus 数据集为犯罪剧情的理解和剧本摘要生成提供了丰富的研究素材。近年来,研究者们利用这些数据集探索了多模态信息融合在犯罪剧情理解中的应用,结合视觉和听觉特征,提升了对犯罪者识别的准确性。同时,剧本摘要生成的研究逐渐从传统的文本摘要扩展到基于潜在叙事结构的摘要生成,通过场景和句子级别的标注,模型能够更精确地捕捉剧情的关键信息。这些研究不仅推动了自然语言理解技术的发展,也为影视内容的自动化处理提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作