lara-martin/Scifi_TV_Shows

Name: lara-martin/Scifi_TV_Shows
Creator: lara-martin
Published: 2024-02-08 20:57:46
License: 暂无描述

Hugging Face2024-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lara-martin/Scifi_TV_Shows

下载链接

链接失效反馈

官方服务：

资源简介：

Science Fiction TV Show Plots Corpus数据集是一个包含长期播放（80集以上）科幻电视剧情节概要的集合，这些概要从Fandom.com wikis上抓取，收集于2017年11月。每个剧集被视为一个“故事”。数据集经过事件化和泛化处理，并分为训练集、验证集和测试集，以便将事件转换为完整的句子。数据集包含来自《巴比伦5》、《神秘博士》、《远星际》、《边缘》、《未来世界》、《星际之门》、《星际迷航》、《星球大战》书籍、《星球大战：义军崛起》和《X档案》等剧集的情节概要，总计2276个故事。数据集的主要用途是文本生成和文本到文本生成任务，适用于英语语言环境，且与故事、创意、摘要、电视和科幻等标签相关。

提供机构：

lara-martin

原始信息汇总

数据集卡片：科幻电视剧情节语料库

数据集描述

一个包含长期播放（80+集）科幻电视剧情节概要的集合，从Fandom.com的维基上抓取。收集于2017年11月。每个剧集被视为一个“故事”。

包含的情节概要来自：

Babylon 5 - 84个故事
Doctor Who - 311个故事
Doctor Who衍生剧 - 95个故事
Farscape - 90个故事
Fringe - 87个故事
Futurama - 87个故事
Stargate - 351个故事
Star Trek - 701个故事
Star Wars书籍 - 205个故事，每本书为一个故事
Star Wars Rebels - 65个故事
X-Files - 200个故事

总计：2276个故事

数据集经过“事件化”和泛化处理，并分为训练、测试和验证集，以确保完整的故事保持在一起，用于将事件转换为完整句子。

格式

数据集分割	故事数量	句子数量
训练集	1737	257,108
验证集	194	32,855
测试集	450	30,938

使用Hugging Face加载数据集

python from datasets import load_dataset

下载并加载数据

dataset = load_dataset(lara-martin/Scifi_TV_Shows)

获取各个分割

train = dataset[train] test = dataset[test] validation = dataset[validation]

每个分割包含7个属性： python

print(train)

Dataset({ features: [story_num, story_line, event, gen_event, sent, gen_sent, entities], num_rows: 257108 })

原始数据集结构

文件名：scifi-val.txt, scifi-test.txt, & scifi-train.txt
每个故事的句子被分割成更小的句子，并提取事件。
每行文件包含关于单个句子的信息，以"|||"分隔。每行包含：
- 故事编号
- 行编号（在故事内）
- 5元组事件列表（主语、动词、直接宾语、修饰名词、介词）
- 泛化的5元组事件列表
- 原始句子
- 泛化的句子
- 整个故事中按标签编号的实体字典

OriginalStoriesSeparated 目录中的文件

包含从相应Fandom维基上抓取的未编辑、未解析的原始故事。
每行是一个故事，句子以空格分隔。每个故事后有一个<EOS>标签。
每个域名对应一个文件。
这些文件目前无法通过Hugging Face API调用，必须直接从zip文件中提取。

附加信息

引用

@inproceedings{Ammanabrolu2020AAAI, title={Story Realization: Expanding Plot Events into Sentences}, author={Prithviraj Ammanabrolu and Ethan Tien and Wesley Cheung and Zhaochen Luo and William Ma and Lara J. Martin and Mark O. Riedl}, journal={Proceedings of the AAAI Conference on Artificial Intelligence (AAAI)}, year={2020}, volume={34}, number={05}, url={https://ojs.aaai.org//index.php/AAAI/article/view/6232} }

许可

Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/

5,000+

优质数据集

54 个

任务类型

进入经典数据集