community-datasets/re_dial
收藏数据集卡片 ReDial (Recommendation Dialogues)
数据集描述
数据集摘要
ReDial (Recommendation Dialogues) 是一个标注的对话数据集,用户在其中互相推荐电影。该数据集由 Polytechnique Montréal、MILA – Quebec AI Institute、Microsoft Research Montréal、HEC Montreal 和 Element AI 的研究团队收集。
该数据集允许在目标导向的对话系统(如餐厅推荐)和自由形式的对话系统(也称为“闲聊”)的交叉点进行研究。
支持的任务和排行榜
[更多信息待补充]
语言
数据集中的文本为英语。
数据集结构
数据实例
JSON 格式的数据集典型实例示例。
数据字段
数据集以“jsonl”格式发布,即每个对话对应一个有效的 JSON 文档。
一个对话包含以下字段:
- conversationId: 整数
- initiatorWorkerId: 发起对话的工人的整数标识符(推荐寻求者)
- respondentWorkerId: 回应发起者的工人的整数标识符(推荐者)
- messages: 消息对象列表
- movieMentions: 对话中提到的电影 ID 到电影名称的映射字典
- initiatorQuestions: 发起者提供的电影 ID 到标签的映射字典。每个标签对应发起者是否看过电影、喜欢它或推荐它。
- respondentQuestions: 回应者提供的电影 ID 到标签的映射字典。每个标签对应回应者是否看过电影、喜欢它或推荐它。
每个消息包含以下字段:
- messageId: 消息的唯一 ID
- text: 实际消息的字符串。字符串可能包含以 @ 开头的标记,后跟一个整数。这是可以在对话对象的 movieMentions 字段中查找的电影 ID。
- timeOffset: 对话开始后的时间(以秒为单位)
- senderWorkerId: 发送消息的工人的 ID,即 initiatorWorkerId 或 respondentWorkerId。
initiatorQuestions 和 respondentQuestions 中的标签含义如下:
- suggested: 0 表示寻求者提到,1 表示推荐者建议
- seen: 0 表示寻求者未看过电影,1 表示看过,2 表示未提及
- liked: 0 表示寻求者不喜欢电影,1 表示喜欢,2 表示未提及
数据分割
数据集包含总共 11348 个对话,其中 10006 个用于训练和模型选择,1342 个用于测试。
数据集创建
策划理由
该数据集允许在目标导向的对话系统和自由形式的对话系统的交叉点进行研究。用户在数据集中讨论他们喜欢和不喜欢的电影,哪些他们看过或没看过等,并且我们确保双方参与者的一致性。这允许研究对话中的情感表达,这与评论网站等有很大不同。
对话和提到的电影形成了一个有趣的二分图结构,这与用户讨论电影的方式(例如类型信息)有关。
忽略标签信息,该数据集也可以被视为一个有限的领域闲聊对话数据集。
源数据
初始数据收集和规范化
描述数据收集过程。描述任何数据选择或过滤的标准。列出任何使用的关键词或搜索词。如果可能,包括收集过程的运行时信息。
如果数据是从其他预先存在的数据集中收集的,请在此处链接到源数据集及其 Hugging Face 版本。
如果数据在收集后被修改或规范化(例如,如果数据被词 token 化),请描述该过程和使用的工具。
源语言生产者是谁?
我们为数据收集目的正式化了涉及推荐的对话设置。为了给我们的数据(和模型)提供一些额外的结构,我们将对话中的一个人定义为推荐寻求者,另一个人定义为推荐者。
为了以这种形式获取数据,我们开发了一个接口和配对机制,由 Amazon Mechanical Turk (AMT) 中介。
我们将 AMT 工人配对,并给他们分配角色。电影寻求者必须解释他/她喜欢什么样的电影,并询问电影建议。推荐者试图了解寻求者的电影品味,并推荐电影。所有信息交换和推荐都是使用自然语言进行的。
我们添加了额外的说明以提高数据质量和指导工人按照我们的预期进行对话。因此,我们要求使用正式语言,并且对话至少包含十条消息。我们还要求每个对话中至少提到四部不同的电影。最后,我们还要求只讨论电影,特别是不提及 Mechanical Turk 或任务本身。
此外,我们要求每个电影提及都使用 @ 符号进行标记。当工人输入 @ 时,后续字符用于查找匹配的电影名称,工人可以从该列表中选择一部电影。这使我们能够准确检测到提到的电影及其时间。我们从 DBpedia 收集了类型为 http://dbpedia.org/ontology/Film 的实体以获取电影列表,但也允许工人添加他们自己的电影(如果尚未在列表中)。我们从电影标题(例如 http://dbpedia.org/page/American_Beauty_(1999_film))或通过额外的 SPARQL 请求获取电影的发行日期。请注意,电影的发行年份或日期对于区分同名但不同发行日期的电影至关重要。
我们将这些额外的标签称为电影对话形式。尽管这实际上涉及寻求者的电影品味,但双方工人都必须回答这些形式。理想情况下,两个参与者会对每个形式给出相同的答案,但他们的答案可能不一致(由于粗心或对话歧义)。因此,电影对话形式允许我们更系统地评估整体神经对话系统的子组件,例如可以直接使用这些标签训练和评估情感分析模型。
在每个对话中,提到的电影数量不同,因此每个对话的电影对话形式答案数量也不同。电影对话形式的不同类别的分布如表 1a 所示。喜欢/不喜欢/未提及标签高度不平衡。这是推荐数据的典型特征,因为人们自然更倾向于谈论他们喜欢的电影,而推荐者的目标是推荐寻求者可能喜欢的电影。
注释
注释过程
在上述子部分中提到。
注释者是谁?
对于 AMT HIT,我们收集英语数据,并选择将数据收集限制在英语为主要语言的国家。由于我们配对工人一起工作,数据收集速度较慢,因为我们要求至少两个人同时在线才能完成任务,因此需要大量工人才能使收集成为可能。同时,任务相当繁重,我们必须选择合格的工人。HIT 奖励和资格要求对于确保良好的对话质量同时仍能确保人们能够配对至关重要。我们通过初步 HIT 找到了一个折中方案,最终将奖励设置为每人每次完成对话 $0.50(因此每个对话成本为 $1,加上税),并要求工人满足以下要求:(1)批准百分比大于 95,(2)批准的 HIT 数量大于 1000,(3)他们的位置必须在美



