facebook/wiki_movies
收藏WikiMovies 数据集概述
数据集描述
数据集摘要
WikiMovies 数据集包含约 100k 个(模板化)问题,涉及 75k 个实体,基于开放电影数据库(OMDb)中的问题和答案。它是电影对话数据集的问答部分。
支持的任务和排行榜
- 问答(Question Answering)
语言
数据集中的文本为英语。
数据集结构
数据实例
原始数据由以制表符分隔的问题和答案对组成。以下是三个示例:
1 what does Grégoire Colin appear in? Before the Rain 1 Joe Thomas appears in which movies? The Inbetweeners Movie, The Inbetweeners 2 1 what films did Michelle Trachtenberg star in? Inspector Gadget, Black Christmas, Ice Princess, Harriet the Spy, The Scribbler
每行开头的 1 用途不明,但在 Dataset 对象中已被移除。
数据字段
以下是 Datasets 摄取的原始数据示例:
json
{
"answer": "Before the Rain",
"question": "what does Grégoire Colin appear in?"
}
answer:包含对应问题的答案的字符串。question:包含相关问题的字符串。
数据分割
数据分为训练集、测试集和验证集。分割大小如下:
| 文件名 | 样本数量 |
|---|---|
| train.txt | 96185 |
| dev.txt | 10000 |
| test.txt | 9952 |
数据集创建
策划理由
WikiMovies 数据集的构建目标包括:(i)机器学习技术应有足够的训练示例进行学习;(ii)可以轻松分析不同知识表示的性能,并按问题类型分解结果。数据集可从 http://fb.ai/babi 下载。
许可证信息
- 许可证:CC BY 3.0
引用信息
bibtex @misc{miller2016keyvalue, title={Key-Value Memory Networks for Directly Reading Documents}, author={Alexander Miller and Adam Fisch and Jesse Dodge and Amir-Hossein Karimi and Antoine Bordes and Jason Weston}, year={2016}, eprint={1606.03126}, archivePrefix={arXiv}, primaryClass={cs.CL} }




