five

NorGLM/NO-ConvAI2

收藏
Hugging Face2024-03-11 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NorGLM/NO-ConvAI2
下载链接
链接失效反馈
官方服务:
资源简介:
NO-ConvAI2是一个开放域的人机对话数据集,它是从ConvAI2机器翻译而来的。数据集中省略了dialog_ids和turn_ids,每行文本以*Bot | Human*的格式呈现。数据集被划分为训练集和测试集,训练集包含253937个对话对,测试集包含28658个对话对。

NO-ConvAI2 is an open-domain human-to-bot conversational dataset machine translated from ConvAI2. The dataset omits dialog_ids and turn_ids, with each line written in Bot | Human format. It is split into train and test sets, containing 253937 and 28658 conversation pairs respectively. The dataset follows the original license information of the existing datasets.
提供机构:
NorGLM
原始信息汇总

数据集卡片 NO-ConvAI2

概述

NO-ConvAI2 是一个开放领域的机器人对话数据集,由 ConvAI2 机器翻译而来。

数据格式

数据集中的对话ID和轮次ID被省略。每行文本以 Bot | Human 格式编写。

数据分割

数据集分为训练集和测试集。

#对话对
train 253937
test 28658

许可信息

该数据集基于现有数据集构建,因此遵循其原始许可信息。

引用信息

请引用原始的 ConvAI2 数据集:

@inproceedings{dinan2020second, title={The second conversational intelligence challenge (convai2)}, author={Dinan, Emily and Logacheva, Varvara and Malykh, Valentin and Miller, Alexander and Shuster, Kurt and Urbanek, Jack and Kiela, Douwe and Szlam, Arthur and Serban, Iulian and Lowe, Ryan and others}, booktitle={The NeurIPS18 Competition: From Machine Learning to Intelligent Conversations}, pages={187--208}, year={2020}, organization={Springer} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作