matheusrdgsf/re_dial_ptbr

Name: matheusrdgsf/re_dial_ptbr
Creator: matheusrdgsf
Published: 2023-11-13 18:14:31
License: 暂无描述

Hugging Face2023-11-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/matheusrdgsf/re_dial_ptbr

下载链接

链接失效反馈

官方服务：

资源简介：

ReDial (Recommendation Dialogues) PTBR数据集是一个标注的对话集合，用户在其中互相推荐电影，并且已翻译为巴西葡萄牙语。该数据集的巴西葡萄牙语版本由Maritalk翻译，为研究目标导向的对话系统（如餐厅推荐）和自由形式的日常对话系统的交叉领域提供了机会。由于Maritalk的使用限制，原始数据集中的一些样本已被移除，训练集减少了近10%。

提供机构：

matheusrdgsf

原始信息汇总

数据集概述

数据集名称

ReDial (Recommendation Dialogues) PTBR

数据集描述

ReDial (Recommendation Dialogues) PTBR 数据集是一个经过注释的对话集合，用户在其中互相推荐电影，并翻译成巴西葡萄牙语。

数据集特征

conversationId: 对话ID，数据类型为 int32。
messages: 消息列表，包含以下字段：
- messageId: 消息ID，数据类型为 int64。
- senderWorkerId: 发送者ID，数据类型为 int64。
- text: 消息文本，数据类型为 string。
- timeOffset: 时间偏移，数据类型为 int64。
messages_translated: 翻译后的消息列表，字段与 messages 相同。
movieMentions: 电影提及列表，包含以下字段：
- movieId: 电影ID，数据类型为 string。
- movieName: 电影名称，数据类型为 string。
respondentQuestions: 回应者问题列表，包含以下字段：
- liked: 是否喜欢，数据类型为 int64。
- movieId: 电影ID，数据类型为 string。
- seen: 是否看过，数据类型为 int64。
- suggested: 是否推荐，数据类型为 int64。
respondentWorkerId: 回应者ID，数据类型为 int32。
initiatorWorkerId: 发起者ID，数据类型为 int32。
initiatorQuestions: 发起者问题列表，字段与 respondentQuestions 相同。

数据集分割

train: 训练集，包含 9005 个样本，大小为 26389658 字节。
test: 测试集，包含 1342 个样本，大小为 3755474 字节。

数据集大小

下载大小: 11072939 字节
数据集大小: 30145132 字节

数据集配置

config_name: default
data_files:
- train: 路径为 data/train-*
- test: 路径为 data/test-*

许可证

MIT

任务类别

文本分类
文本生成
对话系统
翻译

语言

葡萄牙语
英语

数据实例

json { "conversationId": 391, "messages": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Hi there, how are you? Im looking for movie recommendations", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "I am doing okay. What kind of movies do you like?", "timeOffset": 15 } ], "messages_translated": [ { "messageId": 1021, "senderWorkerId": 0, "text": "Olá, como você está? Estou procurando recomendações de filmes.", "timeOffset": 0 }, { "messageId": 1022, "senderWorkerId": 1, "text": "Eu estou indo bem. Qual tipo de filmes você gosta?", "timeOffset": 15 } ], "movieMentions": [ { "movieId": "203371", "movieName": "Final Fantasy: The Spirits Within (2001)" } ], "respondentQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ], "respondentWorkerId": 1, "initiatorWorkerId": 0, "initiatorQuestions": [ { "liked": 1, "movieId": "203371", "seen": 0, "suggested": 1 } ] }

数据字段

conversationId: 对话ID，数据类型为 int32。
initiatorWorkerId: 发起者ID，数据类型为 int32。
respondentWorkerId: 回应者ID，数据类型为 int32。
messages: 消息列表，包含以下字段：
- messageId: 消息ID，数据类型为 int64。
- text: 消息文本，数据类型为 string。
- timeOffset: 时间偏移，数据类型为 int64。
- senderWorkerId: 发送者ID，数据类型为 int64。
messages_translated: 翻译后的消息列表，字段与 messages 相同。
movieMentions: 电影提及列表，包含以下字段：
- movieId: 电影ID，数据类型为 string。
- movieName: 电影名称，数据类型为 string。
initiatorQuestions: 发起者问题列表，包含以下字段：
- liked: 是否喜欢，数据类型为 int64。
- movieId: 电影ID，数据类型为 string。
- seen: 是否看过，数据类型为 int64。
- suggested: 是否推荐，数据类型为 int64。
respondentQuestions: 回应者问题列表，字段与 initiatorQuestions 相同。

数据分割

原始数据集包含 11348 个对话，其中 10006 个用于训练和模型选择，1342 个用于测试。
翻译版本的数据集在训练集上减少了约 10%。

贡献者

matheusrdg
wfco
数据集的翻译由 Maritalk API 提供支持。

5,000+

优质数据集

54 个

任务类型

进入经典数据集