Accommodation Search Dialog Corpus

github2024-01-19 更新2024-05-31 收录

下载链接：

https://github.com/megagonlabs/asdc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含210个日语对话，模拟客户和操作员在虚构的住宿咨询服务中的交互。对话涉及客户向操作员提供情况和需求，操作员据此进行搜索以满足客户请求。对话结束于操作员认为已足够具体地缩小了合适的住宿范围。数据集提供文本和JSON两种格式，并包含详细的注释和示例。

This dataset comprises 210 Japanese dialogues simulating interactions between customers and operators in a fictional accommodation advisory service. The dialogues involve customers presenting their situations and requirements to the operators, who then conduct searches to fulfill the customers' requests. Each conversation concludes when the operator deems that the range of suitable accommodations has been sufficiently narrowed down. The dataset is available in both text and JSON formats, accompanied by detailed annotations and examples.

创建时间：

2022-06-16

原始信息汇总

数据集概述

数据集名称

Accommodation Search Dialog Corpus (ASDC)

数据集内容

主数据集
- 包含210个日语对话，模拟客户与运营商在假想的住宿咨询服务中的交流。
- 对话格式：文本（data/main/dialog/text/*.tsv）和JSON（data/main/dialog/json/*.json）。
- 注释类型：
  - SCUD：约3,500个，记录对话中的自包含话语描述。
  - 对话行为（Dialog Act）
  - 请求跨度（Request Spans）
补充数据集
- 补充SCUD部分：包含57,447个带有SCUD注释的虚构对话。
- 补充正确性标记的SCUD部分：包含8,115个带有SCUD及其正确性注释的虚构对话。
原始数据集
- 包含74,799个由众包工作者制作的虚构对话或查询，无SCUD注释。

数据集格式

主数据集和补充数据集主要以文本和JSON格式存储。

数据集用途

用于研究和开发自然语言处理、对话系统等领域。

数据集许可

数据集、注释和文档遵循Creative Commons Attribution 4.0 International License。
程序遵循Apache License, Version 2.0。

搜集汇总

数据集介绍

构建方式

Accommodation Search Dialog Corpus的构建基于模拟的住宿咨询服务对话，通过Slack平台收集了210组日语对话。这些对话由两名参与者分别扮演顾客和操作员角色，顾客描述其需求和情境，操作员则根据提供的信息进行住宿搜索，直至满足顾客的具体要求。对话以文本和JSON两种格式存储，便于后续的分析和处理。此外，数据集还包括了SCUD（自包含话语描述）、对话行为和请求跨度等丰富的注释信息，为深入研究提供了坚实的基础。

特点

该数据集的特点在于其丰富的注释信息和多样化的对话内容。不仅包含了210组主对话，还提供了超过57,000组补充对话和8,000组带有正确性标签的SCUD注释，以及74,799组无SCUD注释的虚构对话。这些数据涵盖了广泛的住宿搜索场景，能够有效支持自然语言处理任务，如对话系统开发、语义理解和信息抽取等。数据集的多样性和详尽的注释使其成为研究日语对话的理想资源。

使用方法

使用Accommodation Search Dialog Corpus时，研究人员可以通过读取文本或JSON格式的对话文件，获取详细的对话内容和注释信息。数据集中的SCUD、对话行为和请求跨度等注释，可用于训练和评估对话系统、语义解析模型等。此外，补充部分的大量虚构对话和正确性标签，为模型的泛化能力和鲁棒性测试提供了丰富的素材。通过结合文档中的详细说明，用户可以高效地利用该数据集进行各类自然语言处理研究。

背景与挑战

背景概述

Accommodation Search Dialog Corpus是由Megagon Labs的研究团队于2021年创建的日语对话数据集，旨在支持住宿搜索领域的自然语言处理研究。该数据集包含210个模拟对话，涉及顾客与操作员之间的互动，对话内容围绕顾客的住宿需求和操作员的搜索建议展开。数据集的核心研究问题在于如何通过对话理解顾客的具体需求，并生成相应的住宿推荐。该数据集在自然语言处理领域具有重要影响力，特别是在对话系统、意图识别和槽位填充等任务中，为研究者提供了丰富的实验数据。

当前挑战

Accommodation Search Dialog Corpus在构建过程中面临多重挑战。首先，对话数据的多样性和复杂性要求研究人员在模拟对话时确保其真实性和自然性，这对数据收集和标注提出了较高要求。其次，数据集中的SCUD（Self-Contained Utterance Description）标注需要精确捕捉每句话的语义信息，这对标注人员的语言理解能力和标注一致性提出了挑战。此外，数据集的扩展部分包含大量补充对话，其标注质量和数据分布的平衡性也是需要重点关注的问题。在应用层面，如何利用该数据集提升对话系统的意图识别和槽位填充能力，仍是一个亟待解决的研究难题。

常用场景

经典使用场景

在自然语言处理领域，Accommodation Search Dialog Corpus 数据集被广泛应用于对话系统的开发和优化。该数据集包含了210段日语的住宿搜索对话，模拟了客户与操作员之间的互动，涵盖了从需求表达、信息搜索到最终决策的完整对话流程。研究人员利用这些对话数据，训练和测试对话管理模型、意图识别模型以及自然语言生成模型，以提升对话系统的理解能力和响应质量。

实际应用

在实际应用中，Accommodation Search Dialog Corpus 数据集为智能客服系统和虚拟助手的开发提供了重要参考。基于该数据集训练的模型能够更准确地理解用户需求，提供个性化的住宿推荐服务。例如，在酒店预订平台中，系统可以根据用户的偏好和预算，自动筛选并推荐合适的住宿选项，提升用户体验和预订效率。此外，该数据集还可用于多语言对话系统的开发，促进跨文化交流和商业合作。

衍生相关工作

基于Accommodation Search Dialog Corpus 数据集，衍生了一系列经典研究工作。例如，林部祐太等人提出了自包含话语描述（SCUD）的标注方法，为对话分析提供了新的视角。此外，Hongjie Shi 等人利用该数据集开发了基于序列到序列模型的槽填充技术，显著提升了对话状态跟踪的准确性。这些研究不仅推动了对话系统技术的发展，还为其他领域的自然语言处理任务提供了借鉴和启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集