five

facebook/mdd

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/mdd
下载链接
链接失效反馈
官方服务:
资源简介:
Movie Dialog数据集(MDD)旨在衡量模型在围绕电影主题的目标和非目标导向对话中的表现,包括问答、推荐和讨论。数据来源于MovieLens、OMDb和Reddit等网站,数据以英语呈现。
提供机构:
facebook
原始信息汇总

数据集卡片 for MDD

数据集描述

数据集摘要

Movie Dialog dataset (MDD) 旨在衡量模型在以电影为主题的目标和非目标导向对话中的表现(包括问答、推荐和讨论),数据来源于 MovieLens 和 OMDb 等电影评论网站。

支持的任务和排行榜

[更多信息需要]

语言

数据集中的语言为英语,由 OMDb 和 MovieLens 网站的用户编写。

数据集结构

数据实例

一个来自 task3_qarecs 配置的 train 分割的实例:

{dialogue_turns: {speaker: [0, 1, 0, 1, 0, 1], utterance: ["I really like Jaws, Bottle Rocket, Saving Private Ryan, Tommy Boy, The Muppet Movie, Face/Off, and Cool Hand Luke. Im looking for a Documentary movie.", Beyond the Mat, Who is that directed by?, Barry W. Blaustein, I like Jon Fauer movies more. Do you know anything else?, Cinematographer Style]}}

一个来自 task4_reddit 配置的 cand-valid 分割的实例:

{dialogue_turns: {speaker: [0], utterance: [MORTAL KOMBAT !]}}

数据字段

对于所有配置:

  • dialogue_turns: 一个包含以下内容的字典特征:
    • speaker: 一个整数,可能的值包括 0, 1,表示哪个说话者编写了话语。
    • utterance: 一个包含文本话语的字符串特征。

数据分割

分割及其相应的大小如下:

配置 训练集 测试集 验证集 cand_valid cand_test
task1_qa 96185 9952 9968 - -
task2_recs 1000000 10000 10000 - -
task3_qarecs 952125 4915 5052 - -
task4_reddit 945198 10000 10000 10000 10000

cand_validcand_testtask4_reddit 配置的负候选,用于在排名中将真实正例与这些候选进行比较,并报告 hits@k(或其他排名指标)。

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

任务的构建依赖于一些现有数据集:

  1. MovieLens。数据下载自:http://grouplens.org/datasets/movielens/20m/ 于2015年5月27日。

  2. OMDB。数据下载自:http://beforethecode.com/projects/omdb/download.aspx 于2015年5月28日。

  3. 对于 task4_reddit,数据是处理过的子集(仅电影子reddit),来自:https://www.reddit.com/r/datasets/comments/3bxlg7

源语言生产者是谁?

MovieLens、OMDB 网站和 reddit 网站的用户等。

注释

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

Jesse Dodge 和 Andreea Gane 和 Xiang Zhang 和 Antoine Bordes 和 Sumit Chopra 和 Alexander Miller 和 Arthur Szlam 和 Jason Weston (在 Facebook Research)。

许可信息

Creative Commons Attribution 3.0 License

引用信息

@misc{dodge2016evaluating, title={Evaluating Prerequisite Qualities for Learning End-to-End Dialog Systems}, author={Jesse Dodge and Andreea Gane and Xiang Zhang and Antoine Bordes and Sumit Chopra and Alexander Miller and Arthur Szlam and Jason Weston}, year={2016}, eprint={1511.06931}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @gchhablani 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作