five

lara-martin/Scifi_TV_Shows

收藏
Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lara-martin/Scifi_TV_Shows
下载链接
链接失效反馈
官方服务:
资源简介:
Science Fiction TV Show Plots Corpus数据集是一个包含长期播放(80集以上)科幻电视剧情节概要的集合,这些概要从Fandom.com wikis上抓取,收集于2017年11月。每个剧集被视为一个“故事”。数据集经过事件化和泛化处理,并分为训练集、验证集和测试集,以便将事件转换为完整的句子。数据集包含来自《巴比伦5》、《神秘博士》、《远星际》、《边缘》、《未来世界》、《星际之门》、《星际迷航》、《星球大战》书籍、《星球大战:义军崛起》和《X档案》等剧集的情节概要,总计2276个故事。数据集的主要用途是文本生成和文本到文本生成任务,适用于英语语言环境,且与故事、创意、摘要、电视和科幻等标签相关。
提供机构:
lara-martin
原始信息汇总

数据集卡片:科幻电视剧情节语料库

数据集描述

一个包含长期播放(80+集)科幻电视剧情节概要的集合,从Fandom.com的维基上抓取。收集于2017年11月。每个剧集被视为一个“故事”。

包含的情节概要来自:

  • Babylon 5 - 84个故事
  • Doctor Who - 311个故事
  • Doctor Who衍生剧 - 95个故事
  • Farscape - 90个故事
  • Fringe - 87个故事
  • Futurama - 87个故事
  • Stargate - 351个故事
  • Star Trek - 701个故事
  • Star Wars书籍 - 205个故事,每本书为一个故事
  • Star Wars Rebels - 65个故事
  • X-Files - 200个故事

总计:2276个故事

数据集经过“事件化”和泛化处理,并分为训练、测试和验证集,以确保完整的故事保持在一起,用于将事件转换为完整句子。

格式

数据集分割 故事数量 句子数量
训练集 1737 257,108
验证集 194 32,855
测试集 450 30,938

使用Hugging Face加载数据集

python from datasets import load_dataset

下载并加载数据

dataset = load_dataset(lara-martin/Scifi_TV_Shows)

获取各个分割

train = dataset[train] test = dataset[test] validation = dataset[validation]

每个分割包含7个属性: python

print(train)

Dataset({ features: [story_num, story_line, event, gen_event, sent, gen_sent, entities], num_rows: 257108 })

原始数据集结构

  • 文件名:scifi-val.txt, scifi-test.txt, & scifi-train.txt
  • 每个故事的句子被分割成更小的句子,并提取事件。
  • 每行文件包含关于单个句子的信息,以"|||"分隔。每行包含:
    • 故事编号
    • 行编号(在故事内)
    • 5元组事件列表(主语、动词、直接宾语、修饰名词、介词)
    • 泛化的5元组事件列表
    • 原始句子
    • 泛化的句子
    • 整个故事中按标签编号的实体字典

OriginalStoriesSeparated 目录中的文件

  • 包含从相应Fandom维基上抓取的未编辑、未解析的原始故事。
  • 每行是一个故事,句子以空格分隔。每个故事后有一个<EOS>标签。
  • 每个域名对应一个文件。
  • 这些文件目前无法通过Hugging Face API调用,必须直接从zip文件中提取。

附加信息

引用

@inproceedings{Ammanabrolu2020AAAI, title={Story Realization: Expanding Plot Events into Sentences}, author={Prithviraj Ammanabrolu and Ethan Tien and Wesley Cheung and Zhaochen Luo and William Ma and Lara J. Martin and Mark O. Riedl}, journal={Proceedings of the AAAI Conference on Artificial Intelligence (AAAI)}, year={2020}, volume={34}, number={05}, url={https://ojs.aaai.org//index.php/AAAI/article/view/6232} }

许可

Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作