DuRecDial 2.0

Name: DuRecDial 2.0
Creator: 百度公司
Published: 2021-09-18 16:23:21
License: 暂无描述

arXiv2021-09-18 更新2024-06-21 收录

下载链接：

https://github.com/liuzeming01/DuRecDial

下载链接

链接失效反馈

官方服务：

资源简介：

DuRecDial 2.0是由百度公司创建的双语平行对话推荐数据集，包含16500条英汉对话，总计255000条语句。该数据集通过严格的质量控制程序由众包工作者标注，覆盖电影、音乐、明星、食品、餐厅、新闻、天气等多个领域。数据集的创建旨在推动多语言和跨语言对话推荐的研究，通过定义五种任务，包括单语、多语和跨语言对话推荐，为模型性能评估提供了一个挑战性的测试平台。

DuRecDial 2.0 is a bilingual parallel conversational recommendation dataset developed by Baidu. It contains 16,500 English-Chinese dialogues, totaling 255,000 utterances. Annotated by crowdworkers through strict quality control procedures, the dataset covers multiple domains such as movies, music, celebrities, food, restaurants, news, and weather. Created to advance research on multilingual and cross-lingual conversational recommendation, it provides a challenging testbed for model performance evaluation by defining five tasks, including monolingual, multilingual, and cross-lingual conversational recommendation.

提供机构：

百度公司

创建时间：

2021-09-18

搜集汇总

数据集介绍

构建方式

在对话推荐系统研究领域，构建高质量双语平行数据集对于推动多语言与跨语言模型发展至关重要。DuRecDial 2.0的构建过程遵循严谨的多阶段流程，首先基于已有中文对话推荐数据集DuRecDial，通过专业众包翻译人员对数据项（包括用户画像、对话目标、知识图谱、上下文及回复）进行双语对齐标注，涵盖电影、音乐、明星等多个领域。为确保数据质量，实施了严格的质量控制程序，包括多轮翻译与评估，最终形成了包含8.2k个平行对话、总计16.5k个对话和255k条话语的高质量语料库。

特点

该数据集的显著特点在于其双语平行结构与丰富的对话类型多样性。作为首个公开的对话推荐双语平行数据集，DuRecDial 2.0不仅提供了中英文完全对齐的对话数据，还涵盖了推荐、问答、任务导向及闲聊四种对话类型，涉及电影、明星、音乐等六个领域。与现有单语数据集相比，其话语前缀分布更为广泛，呈现出更灵活的语言风格，为研究多语言语境下的对话交互提供了更贴近真实场景的语料基础。

使用方法

DuRecDial 2.0支持五种研究任务的探索，包括单语、多语及跨语言对话推荐。在单语任务中，模型可分别使用英文或中文数据进行训练与评估；多语任务则允许混合两种语言数据训练统一模型；跨语言任务进一步挑战模型在输入与输出语言不一致时的表现。研究人员可基于该数据集构建基线模型，如使用XNLG或mBART等预训练架构进行微调，通过自动评估指标（如BLEU、知识选择准确率）和人工评估（流畅性、推荐成功率）全面衡量模型性能，尤其可探究英文数据对中文对话推荐任务的性能增益现象。

背景与挑战

背景概述

随着语音交互技术的蓬勃发展，对话式推荐系统逐渐成为人机交互领域的研究热点，旨在通过自然对话形式提供个性化推荐服务。在此背景下，哈尔滨工业大学与百度公司于2021年联合发布了DuRecDial 2.0数据集，这是首个公开的双语平行对话推荐语料库，涵盖中英文两种语言。该数据集包含约8.2万组平行对话，总计16.5万段对话与25.5万条语句，覆盖电影、音乐、明星等多个领域。其核心研究问题在于探索多语言与跨语言环境下的对话推荐机制，通过构建高质量平行语料，为模型在低资源语言场景下的性能提升提供数据基础，显著推动了跨语言对话推荐系统的研究进程。

当前挑战

在对话推荐领域，现有数据集多为单语言构建，难以支撑多语言模型的训练与评估，这限制了模型在跨语言场景下的泛化能力。DuRecDial 2.0致力于解决多语言与跨语言对话推荐中的核心挑战，包括如何实现语言间的知识对齐与语义迁移，以及如何设计有效的评估框架以衡量模型的跨语言适应性。在构建过程中，研究团队面临双语知识图谱的精准对齐难题，需确保实体与属性的翻译一致性；同时，对话语句的平行标注需维持语言风格的自然性与文化适配性，这要求严格的众包质量控制流程与多轮人工校验，以保障数据的高质量与可靠性。

常用场景

经典使用场景

在对话式推荐系统领域，DuRecDial 2.0作为首个公开的双语平行数据集，其经典使用场景聚焦于构建跨语言对话推荐模型。研究者利用该数据集训练单语、多语及跨语言推荐系统，模拟真实对话中用户与智能体之间的多轮交互，涵盖电影、音乐、明星等多个领域，通过并行标注的对话数据，探索模型在不同语言环境下的推荐效果与泛化能力。

实际应用

在实际应用中，DuRecDial 2.0可服务于全球化智能助手与推荐平台，例如多语言客服机器人或跨文化娱乐推荐系统。基于该数据集训练的模型能够理解并回应用户以不同语言发起的对话请求，实现无缝的跨语言推荐交互，提升用户体验。此外，其在教育、电商等领域的多语言对话系统开发中，也具有推动技术落地的潜力。

衍生相关工作

DuRecDial 2.0衍生了一系列经典研究工作，包括基于XNLG和mBART等预训练模型的单语与跨语言对话推荐基线系统。这些工作进一步探索了多语言数据融合对模型性能的影响，例如通过混合训练提升中文推荐的准确性。同时，数据集激发了后续研究对零样本学习与低资源语言对话推荐的结合，拓展了对话系统在多语言环境下的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集