five

matheusrdgsf/re_dial_ptbr

收藏
Hugging Face2023-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matheusrdgsf/re_dial_ptbr
下载链接
链接失效反馈
官方服务:
资源简介:
ReDial (Recommendation Dialogues) PTBR数据集是一个标注的对话集合,用户在其中互相推荐电影,并且已翻译为巴西葡萄牙语。该数据集的巴西葡萄牙语版本由Maritalk翻译,为研究目标导向的对话系统(如餐厅推荐)和自由形式的日常对话系统的交叉领域提供了机会。由于Maritalk的使用限制,原始数据集中的一些样本已被移除,训练集减少了近10%。
提供机构:
matheusrdgsf
原始信息汇总

数据集概述

数据集名称

ReDial (Recommendation Dialogues) PTBR

数据集描述

ReDial (Recommendation Dialogues) PTBR 数据集是一个经过注释的对话集合,用户在其中互相推荐电影,并翻译成巴西葡萄牙语。

数据集特征

  • conversationId: 对话ID,数据类型为 int32
  • messages: 消息列表,包含以下字段:
    • messageId: 消息ID,数据类型为 int64
    • senderWorkerId: 发送者ID,数据类型为 int64
    • text: 消息文本,数据类型为 string
    • timeOffset: 时间偏移,数据类型为 int64
  • messages_translated: 翻译后的消息列表,字段与 messages 相同。
  • movieMentions: 电影提及列表,包含以下字段:
    • movieId: 电影ID,数据类型为 string
    • movieName: 电影名称,数据类型为 string
  • respondentQuestions: 回应者问题列表,包含以下字段:
    • liked: 是否喜欢,数据类型为 int64
    • movieId: 电影ID,数据类型为 string
    • seen: 是否看过,数据类型为 int64
    • suggested: 是否推荐,数据类型为 int64
  • respondentWorkerId: 回应者ID,数据类型为 int32
  • initiatorWorkerId: 发起者ID,数据类型为 int32
  • initiatorQuestions: 发起者问题列表,字段与 respondentQuestions 相同。

数据集分割

  • train: 训练集,包含 9005 个样本,大小为 26389658 字节。
  • test: 测试集,包含 1342 个样本,大小为 3755474 字节。

数据集大小

  • 下载大小: 11072939 字节
  • 数据集大小: 30145132 字节

数据集配置

  • config_name: default
  • data_files:
    • train: 路径为 data/train-*
    • test: 路径为 data/test-*

许可证

MIT

任务类别

  • 文本分类
  • 文本生成
  • 对话系统
  • 翻译

语言

  • 葡萄牙语
  • 英语

标签

  • 对话推荐
  • 推荐
  • 对话

数据实例

json { "conversationId": 391, "messages": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Hi there, how are you? Im looking for movie recommendations", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "I am doing okay. What kind of movies do you like?", "timeOffset": 15 } ], "messages_translated": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Olá, como você está? Estou procurando recomendações de filmes.", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "Eu estou indo bem. Qual tipo de filmes você gosta?", "timeOffset": 15 } ], "movieMentions": [ { "movieId": "203371", "movieName": "Final Fantasy: The Spirits Within (2001)" } ], "respondentQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ], "respondentWorkerId": 1, "initiatorWorkerId": 0, "initiatorQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ] }

数据字段

  • conversationId: 对话ID,数据类型为 int32
  • initiatorWorkerId: 发起者ID,数据类型为 int32
  • respondentWorkerId: 回应者ID,数据类型为 int32
  • messages: 消息列表,包含以下字段:
    • messageId: 消息ID,数据类型为 int64
    • text: 消息文本,数据类型为 string
    • timeOffset: 时间偏移,数据类型为 int64
    • senderWorkerId: 发送者ID,数据类型为 int64
  • messages_translated: 翻译后的消息列表,字段与 messages 相同。
  • movieMentions: 电影提及列表,包含以下字段:
    • movieId: 电影ID,数据类型为 string
    • movieName: 电影名称,数据类型为 string
  • initiatorQuestions: 发起者问题列表,包含以下字段:
    • liked: 是否喜欢,数据类型为 int64
    • movieId: 电影ID,数据类型为 string
    • seen: 是否看过,数据类型为 int64
    • suggested: 是否推荐,数据类型为 int64
  • respondentQuestions: 回应者问题列表,字段与 initiatorQuestions 相同。

数据分割

  • 原始数据集包含 11348 个对话,其中 10006 个用于训练和模型选择,1342 个用于测试。
  • 翻译版本的数据集在训练集上减少了约 10%。

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作