The Integral Lets Go Dataset

github2023-11-30 更新2024-05-31 收录

下载链接：

https://github.com/DialRC/LetsGoDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由卡内基梅隆大学语言技术研究所提供，后移至德国班贝格大学自然语言生成与对话系统组。数据集来源于Lets Go对话系统的使用，包含171,128个对话，主要用于提供公交信息调度。数据集覆盖了从2005年8月1日至2016年3月15日的对话记录，是当时最大的公开可用真实用户数据集之一。

This dataset was provided by the Language Technologies Institute at Carnegie Mellon University and later transferred to the Natural Language Generation and Dialogue Systems Group at the University of Bamberg in Germany. The dataset originates from the usage of the Lets Go dialogue system, encompassing 171,128 dialogues primarily used for providing bus information scheduling. It covers dialogue records from August 1, 2005, to March 15, 2016, and was one of the largest publicly available real-user datasets at the time.

创建时间：

2018-02-19

原始信息汇总

数据集概述

数据集名称

The Integral LETS GO! Dataset

数据集来源

原始由卡内基梅隆大学语言技术研究所提供，现由德国巴姆堡大学的自然语言生成与对话系统组托管。

数据集内容

主要数据集：包含171,128个对话，时间范围从2005年8月1日至2016年3月15日。数据包括WAV文件、日志文件和由ASR自动生成的标签。
子集 - 口语对话挑战：2010年的挑战数据，涉及四个团队的系统比较。
子集 - 对话状态跟踪挑战 (DSTC1)：使用Lets Go系统的对话数据，用于对话状态跟踪研究。
事件和系统变更日志：记录系统架构变更、公交时刻表变更等重要变更的Excel文件。
众包注释：2008年10月至2009年9月的对话文字转录，由Amazon Mechanical Turk工作者完成。
Lets Go每日报告：2006年至2016年的每日报告，包括对话数量、平均对话轮数等统计信息。

数据集结构

数据按月份组织，每个月份的数据包含多个文件夹，每个文件夹内包含当月的对话数据，包括WAV文件、日志文件和自动生成的标签。

数据集下载

可通过提供的Shell脚本下载完整数据集或特定时间段的数据。完整数据集大小为715GB。

数据集使用许可

使用数据前需同意相关许可协议，并在所有使用该数据的研究成果中引用。

搜集汇总

数据集介绍

构建方式

The Integral Let's Go数据集构建于卡内基梅隆大学语言技术研究所，现由德国班贝格大学自然语言生成与对话系统小组维护。该数据集来源于Let’s Go对话系统及其衍生系统的实际使用记录，涵盖了2005年8月1日至2016年3月15日期间的171,128个对话。数据集通过电话接口收集了用户与系统的交互数据，包括语音文件、日志文件以及自动生成的ASR标签。数据按月划分，每个月的目录结构包含当天的会话摘要、原始语音数据、自动生成的标签和系统日志。

特点

The Integral Let's Go数据集的特点在于其规模庞大且多样化，涵盖了超过17万条真实用户与系统的对话记录。其中，104,663条对话至少包含三个回合，93,690条对话进行了后端查询，这些数据为研究对话系统的成功率和用户行为提供了丰富的基础。数据集还包含了多个子集，如Spoken Dialog Challenge和Dialog State Tracking Challenge的数据，以及系统变更日志和众包标注数据。这些多样化的数据为研究者在不同任务和场景下的对话系统性能评估提供了宝贵的资源。

使用方法

The Integral Let's Go数据集的使用方法相对简单。用户可以通过提供的Shell脚本下载指定时间段的数据，例如下载2014年7月至8月的数据，只需运行`bash get_letsgo_raw_data.sh 201407 201408`。下载的数据将被解压到指定目录中，用户可以通过日志文件和自动生成的标签进行进一步分析。由于数据集体积庞大（总计715GB），建议用户在下载前确保有足够的磁盘空间。此外，MacOS用户需安装GNU `date`工具以确保脚本正常运行。

背景与挑战

背景概述

The Integral Let's Go Dataset 是由卡内基梅隆大学语言技术研究所于2005年创建的，现由德国班贝格大学的自然语言生成与对话系统研究组维护。该数据集源于Let’s Go对话系统及其衍生系统的使用，旨在为公众提供基于电话的公交信息查询服务。自2005年3月5日上线以来，Let’s Go系统通过与匹兹堡阿勒格尼县港务局的公共信息电话系统连接，服务了超过17万次对话。该数据集不仅为语音识别和对话系统研究提供了丰富的真实用户数据，还推动了多个学术挑战赛的开展，如Spoken Dialog Challenge和Dialog State Tracking Challenge。其影响力体现在超过22篇学位论文和250篇非卡内基梅隆大学的出版物中，成为当时最大的公开真实用户对话数据集之一。

当前挑战

The Integral Let's Go Dataset 在构建和应用过程中面临多重挑战。首先，对话系统的成功率评估依赖于至少三回合的对话和后端查询，但由于语音识别错误或用户请求的反复变更，系统可能提供错误信息，导致成功率的估计存在偏差。其次，数据集的构建过程中，部分月份的数据缺失或显著减少，如2005年8月和2007年8月的数据丢失，影响了数据集的完整性。此外，数据集的规模庞大（总计715GB），对存储和计算资源提出了较高要求。最后，尽管数据集为对话系统研究提供了宝贵资源，但其标注和转录工作依赖于众包平台，可能存在质量不一致的问题，这对后续研究的可靠性提出了挑战。

常用场景

经典使用场景

The Integral Lets Go Dataset 在自然语言处理和对话系统领域中被广泛用于研究真实用户与语音对话系统的交互行为。该数据集包含了超过17万条真实用户的电话对话记录，涵盖了从2005年到2016年的数据。研究人员通过这些对话数据，能够深入分析用户与系统之间的交互模式，尤其是在公共交通信息查询场景下的对话流程。这些数据为对话系统的设计、优化和评估提供了宝贵的资源。

实际应用

在实际应用中，The Integral Lets Go Dataset 被用于开发和改进智能语音助手、客户服务系统以及公共交通信息查询系统。通过分析这些真实对话数据，开发者能够优化系统的语音识别和自然语言理解能力，从而提高系统的响应速度和准确性。此外，该数据集还被用于训练和测试对话管理模型，帮助系统更好地处理复杂的用户请求。

衍生相关工作

该数据集衍生了许多经典的研究工作，特别是在对话状态跟踪挑战（DSTC）和语音对话挑战（SDC）中。这些挑战任务利用该数据集作为基准，推动了对话系统领域的技术进步。例如，DSTC1使用了该数据集来评估不同对话状态跟踪算法的性能，而SDC则通过该数据集比较了不同语音对话系统在真实用户环境下的表现。这些研究工作不仅提升了对话系统的技术水平，还为未来的研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集