facebook/mdd
收藏数据集卡片 for MDD
数据集描述
数据集摘要
Movie Dialog dataset (MDD) 旨在衡量模型在以电影为主题的目标和非目标导向对话中的表现(包括问答、推荐和讨论),数据来源于 MovieLens 和 OMDb 等电影评论网站。
支持的任务和排行榜
[更多信息需要]
语言
数据集中的语言为英语,由 OMDb 和 MovieLens 网站的用户编写。
数据集结构
数据实例
一个来自 task3_qarecs 配置的 train 分割的实例:
{dialogue_turns: {speaker: [0, 1, 0, 1, 0, 1], utterance: ["I really like Jaws, Bottle Rocket, Saving Private Ryan, Tommy Boy, The Muppet Movie, Face/Off, and Cool Hand Luke. Im looking for a Documentary movie.", Beyond the Mat, Who is that directed by?, Barry W. Blaustein, I like Jon Fauer movies more. Do you know anything else?, Cinematographer Style]}}
一个来自 task4_reddit 配置的 cand-valid 分割的实例:
{dialogue_turns: {speaker: [0], utterance: [MORTAL KOMBAT !]}}
数据字段
对于所有配置:
dialogue_turns: 一个包含以下内容的字典特征:speaker: 一个整数,可能的值包括0,1,表示哪个说话者编写了话语。utterance: 一个包含文本话语的字符串特征。
数据分割
分割及其相应的大小如下:
| 配置 | 训练集 | 测试集 | 验证集 | cand_valid | cand_test |
|---|---|---|---|---|---|
| task1_qa | 96185 | 9952 | 9968 | - | - |
| task2_recs | 1000000 | 10000 | 10000 | - | - |
| task3_qarecs | 952125 | 4915 | 5052 | - | - |
| task4_reddit | 945198 | 10000 | 10000 | 10000 | 10000 |
cand_valid 和 cand_test 是 task4_reddit 配置的负候选,用于在排名中将真实正例与这些候选进行比较,并报告 hits@k(或其他排名指标)。
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
任务的构建依赖于一些现有数据集:
-
MovieLens。数据下载自:http://grouplens.org/datasets/movielens/20m/ 于2015年5月27日。
-
OMDB。数据下载自:http://beforethecode.com/projects/omdb/download.aspx 于2015年5月28日。
-
对于
task4_reddit,数据是处理过的子集(仅电影子reddit),来自:https://www.reddit.com/r/datasets/comments/3bxlg7
源语言生产者是谁?
MovieLens、OMDB 网站和 reddit 网站的用户等。
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Jesse Dodge 和 Andreea Gane 和 Xiang Zhang 和 Antoine Bordes 和 Sumit Chopra 和 Alexander Miller 和 Arthur Szlam 和 Jason Weston (在 Facebook Research)。
许可信息
Creative Commons Attribution 3.0 License
引用信息
@misc{dodge2016evaluating, title={Evaluating Prerequisite Qualities for Learning End-to-End Dialog Systems}, author={Jesse Dodge and Andreea Gane and Xiang Zhang and Antoine Bordes and Sumit Chopra and Alexander Miller and Arthur Szlam and Jason Weston}, year={2016}, eprint={1511.06931}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @gchhablani 添加此数据集。



