matheusrdgsf/re_dial_ptbr
收藏数据集概述
数据集名称
ReDial (Recommendation Dialogues) PTBR
数据集描述
ReDial (Recommendation Dialogues) PTBR 数据集是一个经过注释的对话集合,用户在其中互相推荐电影,并翻译成巴西葡萄牙语。
数据集特征
- conversationId: 对话ID,数据类型为
int32。 - messages: 消息列表,包含以下字段:
- messageId: 消息ID,数据类型为
int64。 - senderWorkerId: 发送者ID,数据类型为
int64。 - text: 消息文本,数据类型为
string。 - timeOffset: 时间偏移,数据类型为
int64。
- messageId: 消息ID,数据类型为
- messages_translated: 翻译后的消息列表,字段与
messages相同。 - movieMentions: 电影提及列表,包含以下字段:
- movieId: 电影ID,数据类型为
string。 - movieName: 电影名称,数据类型为
string。
- movieId: 电影ID,数据类型为
- respondentQuestions: 回应者问题列表,包含以下字段:
- liked: 是否喜欢,数据类型为
int64。 - movieId: 电影ID,数据类型为
string。 - seen: 是否看过,数据类型为
int64。 - suggested: 是否推荐,数据类型为
int64。
- liked: 是否喜欢,数据类型为
- respondentWorkerId: 回应者ID,数据类型为
int32。 - initiatorWorkerId: 发起者ID,数据类型为
int32。 - initiatorQuestions: 发起者问题列表,字段与
respondentQuestions相同。
数据集分割
- train: 训练集,包含 9005 个样本,大小为 26389658 字节。
- test: 测试集,包含 1342 个样本,大小为 3755474 字节。
数据集大小
- 下载大小: 11072939 字节
- 数据集大小: 30145132 字节
数据集配置
- config_name: default
- data_files:
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
许可证
MIT
任务类别
- 文本分类
- 文本生成
- 对话系统
- 翻译
语言
- 葡萄牙语
- 英语
标签
- 对话推荐
- 推荐
- 对话
数据实例
json { "conversationId": 391, "messages": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Hi there, how are you? Im looking for movie recommendations", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "I am doing okay. What kind of movies do you like?", "timeOffset": 15 } ], "messages_translated": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Olá, como você está? Estou procurando recomendações de filmes.", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "Eu estou indo bem. Qual tipo de filmes você gosta?", "timeOffset": 15 } ], "movieMentions": [ { "movieId": "203371", "movieName": "Final Fantasy: The Spirits Within (2001)" } ], "respondentQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ], "respondentWorkerId": 1, "initiatorWorkerId": 0, "initiatorQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ] }
数据字段
- conversationId: 对话ID,数据类型为
int32。 - initiatorWorkerId: 发起者ID,数据类型为
int32。 - respondentWorkerId: 回应者ID,数据类型为
int32。 - messages: 消息列表,包含以下字段:
- messageId: 消息ID,数据类型为
int64。 - text: 消息文本,数据类型为
string。 - timeOffset: 时间偏移,数据类型为
int64。 - senderWorkerId: 发送者ID,数据类型为
int64。
- messageId: 消息ID,数据类型为
- messages_translated: 翻译后的消息列表,字段与
messages相同。 - movieMentions: 电影提及列表,包含以下字段:
- movieId: 电影ID,数据类型为
string。 - movieName: 电影名称,数据类型为
string。
- movieId: 电影ID,数据类型为
- initiatorQuestions: 发起者问题列表,包含以下字段:
- liked: 是否喜欢,数据类型为
int64。 - movieId: 电影ID,数据类型为
string。 - seen: 是否看过,数据类型为
int64。 - suggested: 是否推荐,数据类型为
int64。
- liked: 是否喜欢,数据类型为
- respondentQuestions: 回应者问题列表,字段与
initiatorQuestions相同。
数据分割
- 原始数据集包含 11348 个对话,其中 10006 个用于训练和模型选择,1342 个用于测试。
- 翻译版本的数据集在训练集上减少了约 10%。
贡献者
- matheusrdg
- wfco
- 数据集的翻译由 Maritalk API 提供支持。



