lara-martin/Scifi_TV_Shows
收藏数据集卡片:科幻电视剧情节语料库
数据集描述
一个包含长期播放(80+集)科幻电视剧情节概要的集合,从Fandom.com的维基上抓取。收集于2017年11月。每个剧集被视为一个“故事”。
包含的情节概要来自:
- Babylon 5 - 84个故事
- Doctor Who - 311个故事
- Doctor Who衍生剧 - 95个故事
- Farscape - 90个故事
- Fringe - 87个故事
- Futurama - 87个故事
- Stargate - 351个故事
- Star Trek - 701个故事
- Star Wars书籍 - 205个故事,每本书为一个故事
- Star Wars Rebels - 65个故事
- X-Files - 200个故事
总计:2276个故事
数据集经过“事件化”和泛化处理,并分为训练、测试和验证集,以确保完整的故事保持在一起,用于将事件转换为完整句子。
格式
| 数据集分割 | 故事数量 | 句子数量 |
|---|---|---|
| 训练集 | 1737 | 257,108 |
| 验证集 | 194 | 32,855 |
| 测试集 | 450 | 30,938 |
使用Hugging Face加载数据集
python from datasets import load_dataset
下载并加载数据
dataset = load_dataset(lara-martin/Scifi_TV_Shows)
获取各个分割
train = dataset[train] test = dataset[test] validation = dataset[validation]
每个分割包含7个属性: python
print(train)
Dataset({ features: [story_num, story_line, event, gen_event, sent, gen_sent, entities], num_rows: 257108 })
原始数据集结构
- 文件名:scifi-val.txt, scifi-test.txt, & scifi-train.txt
- 每个故事的句子被分割成更小的句子,并提取事件。
- 每行文件包含关于单个句子的信息,以"|||"分隔。每行包含:
- 故事编号
- 行编号(在故事内)
- 5元组事件列表(主语、动词、直接宾语、修饰名词、介词)
- 泛化的5元组事件列表
- 原始句子
- 泛化的句子
- 整个故事中按标签编号的实体字典
OriginalStoriesSeparated 目录中的文件
- 包含从相应Fandom维基上抓取的未编辑、未解析的原始故事。
- 每行是一个故事,句子以空格分隔。每个故事后有一个<EOS>标签。
- 每个域名对应一个文件。
- 这些文件目前无法通过Hugging Face API调用,必须直接从zip文件中提取。
附加信息
引用
@inproceedings{Ammanabrolu2020AAAI, title={Story Realization: Expanding Plot Events into Sentences}, author={Prithviraj Ammanabrolu and Ethan Tien and Wesley Cheung and Zhaochen Luo and William Ma and Lara J. Martin and Mark O. Riedl}, journal={Proceedings of the AAAI Conference on Artificial Intelligence (AAAI)}, year={2020}, volume={34}, number={05}, url={https://ojs.aaai.org//index.php/AAAI/article/view/6232} }
许可
Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/



