ARTA Corpus

github2021-06-16 更新2024-05-31 收录

下载链接：

https://github.com/ahclab/arta_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含27,230个用户请求的日语语料库，分为训练集、验证集和测试集，每个数据条目包含唯一索引、用户请求、系统响应、系统动作功能和类别等信息。

A Japanese corpus containing 27,230 user requests, divided into training, validation, and test sets. Each data entry includes a unique index, user request, system response, system action function, and category information.

创建时间：

2021-06-01

原始信息汇总

数据集概述

数据集名称

名称: arta_corpus

数据集描述

用途: 用于研究模糊请求和周到行动的收集与分类。
相关论文: Shohei Tanaka, Koichiro Yoshino, Katsuhito Sudoh, Satoshi Nakamura. "ARTA: Collection and Classification of Ambiguous Requests and Thoughtful Actions", The 22nd Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), July, 2021, Singapore.

数据集内容

数据量: 包含27,230个用户请求。
数据分割: 分为训练集、验证集和测试集，比例为24,430:1,400:1,400。
数据格式: JSON格式，每行包含以下键值：
- idx: 唯一数据索引
- utterance: 用户请求
- response: 系统响应（行动）
- function: 系统行动功能
- category: 系统行动类别
- multilabel: 附加系统行动类别（仅测试数据和部分验证数据包含此键）

许可证

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

引用信息

引用格式: text @misc{tanaka2021arta, title={ARTA: Collection and Classification of Ambiguous Requests and Thoughtful Actions}, author={Shohei Tanaka and Koichiro Yoshino and Katsuhito Sudoh and Satoshi Nakamura}, year={2021}, eprint={2106.07999}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

ARTA Corpus的构建源于对日语中模糊请求与深思熟虑行为的系统化收集与分类研究。该数据集由27,230条用户请求构成，涵盖了多样化的日常对话场景。数据被划分为训练集、验证集和测试集，比例分别为24,430:1,400:1,400。每条数据以JSON格式存储，包含用户请求、系统响应、系统功能、系统行为类别等关键信息，部分数据还包含多标签分类信息。

特点

ARTA Corpus的显著特点在于其专注于模糊请求与系统深思熟虑行为的分类研究。数据集不仅提供了用户请求与系统响应的对应关系，还标注了系统行为的功能与类别，为研究对话系统的行为决策提供了丰富的标注信息。此外，测试集和部分验证集包含多标签分类信息，进一步增强了数据集的多样性与研究价值。

使用方法

使用ARTA Corpus时，可通过提供的`load_data.py`脚本加载数据。每条数据以JSON格式存储，用户可通过解析`utterance`、`response`、`function`、`category`等字段进行模型训练与评估。对于多标签分类任务，可进一步利用`multilabel`字段进行扩展分析。数据集的开放性与结构化设计使其适用于对话系统行为分类、模糊请求处理等研究领域。

背景与挑战

背景概述

ARTA Corpus是由日本奈良先端科学技术大学院大学（NAIST）的增强人类通信实验室于2021年发布的一个日语语料库，主要研究人员包括Shohei Tanaka、Koichiro Yoshino、Katsuhito Sudoh和Satoshi Nakamura。该数据集的核心研究问题聚焦于模糊请求与深思熟虑的系统响应之间的关联，旨在通过收集和分类用户请求及其对应的系统行为，推动对话系统在理解复杂和模糊用户意图方面的研究。该数据集在2021年的SIGDIAL会议上首次公开，为自然语言处理领域，特别是对话系统研究提供了重要的数据支持。

当前挑战

ARTA Corpus在构建过程中面临的主要挑战包括如何有效捕捉和处理用户请求中的模糊性，以及如何设计系统响应以匹配这些复杂请求。由于用户请求的多样性和模糊性，数据标注和分类工作具有较高的复杂性，尤其是在多标签分类任务中，如何准确划分系统行为的类别成为一大难题。此外，数据集的构建还需要确保系统响应的多样性和实用性，以支持对话系统的实际应用场景。这些挑战不仅体现在数据收集和标注过程中，也反映在后续的模型训练和评估中，要求研究者开发更为精细的算法来处理模糊请求与系统行为之间的复杂关系。

常用场景

经典使用场景

ARTA Corpus 数据集在自然语言处理领域，特别是对话系统和请求分类研究中具有重要应用。该数据集包含了27,230条用户请求，涵盖了多种语境下的模糊请求和系统响应，为研究者提供了丰富的语料资源。通过分析这些数据，研究者可以深入探讨如何识别和处理用户请求中的模糊性，进而优化对话系统的响应机制。

衍生相关工作

基于 ARTA Corpus 数据集，研究者们已经开展了多项经典工作。例如，Tanaka 等人提出的 ARTA 模型，通过结合深度学习和自然语言处理技术，显著提升了模糊请求分类的准确性。此外，该数据集还催生了一系列关于对话系统优化的研究，推动了该领域的进一步发展。

数据集最近研究