ChaI-TeA

Name: ChaI-TeA
Creator: 亚马逊研究, 以色列理工学院
Published: 2024-12-24 20:03:36
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

https://github.com/amazon-science/ChaiTea-chat-interaction-autocomplete

下载链接

链接失效反馈

官方服务：

资源简介：

ChaI-TeA数据集由亚马逊研究和以色列理工学院共同创建，旨在评估基于大型语言模型（LLM）的聊天机器人的自动完成功能。该数据集包含来自Open Assistant和ShareGPT的对话数据，总计536,215条前缀数据，涵盖了广泛的自然语言交互场景。数据集通过提取用户与聊天机器人的对话历史，生成前缀与上下文对，用于训练和评估自动完成模型。该数据集的应用领域主要集中在提升用户与聊天机器人交互的效率，减少用户输入的时间和认知负担，特别是在处理长文本和多主题对话时。

The ChaI-TeA dataset was co-developed by Amazon Research and the Technion – Israel Institute of Technology, with the goal of evaluating the autocomplete capabilities of chatbots powered by large language models (LLMs). This dataset includes a total of 536,215 conversational prefix entries sourced from Open Assistant and ShareGPT, covering a broad spectrum of natural language interaction scenarios. It constructs prefix-context pairs by extracting the conversation history between users and chatbots, which is intended for training and evaluating autocomplete models. The core applications of this dataset center on improving the efficiency of user-chatbot interactions, reducing user input time and cognitive load, particularly when managing long-text and multi-topic conversations.

提供机构：

亚马逊研究, 以色列理工学院

创建时间：

2024-12-24

原始信息汇总

ChaiTea-chat-interaction-autocomplete 数据集概述

数据集简介

ChaiTea-chat-interaction-autocomplete 是一个用于聊天交互自动补全的数据集，支持多种模型的推理和评估。数据集的使用分为两个主要阶段：推理和指标计算。

数据集使用步骤

1. 推理阶段 (`run_baselines.py`)

功能：为数据集中的所有前缀生成补全结果，并保存为 .pkl 文件。
重要参数：
- model_id：指定使用的 Huggingface 模型，支持自定义微调模型。
- dataset：指定使用的数据集，当前支持的数据集包括 oasst 和 sharegpt。
- gpu_id：指定使用的 GPU ID，支持多 GPU 并行运行。
- 推理参数：best_of, max_new_tokens, top_n_tokens, temperature, top_p。
示例： bash python run_baselines.py --model_id mistralai/Mistral-7B-v0.1 --dataset oasst --gpu_id 0 --best_of 5 --temperature 1.0

2. 指标计算阶段 (`metrics.py`)

功能：计算如 saved@k 和 acceptance_rate@k 等指标，并保存为 .csv 文件。
重要参数：
- model_id：指定要计算指标的模型，若为 None，则为所有模型计算。
- dataset：指定推理阶段使用的数据集名称。
- rank_by：指定用于排序补全结果的置信度度量，默认使用 log_likelihood。
示例： bash python src/metrics.py --dataset oasst --model_id microsoft/Phi-3-mini-4k-instruct --rank_by log_likelihood

数据集子集

OASST 验证集子集：提供了一个包含 0.25 比例的 OASST 验证集子集，可通过设置 hp_subset=0.25 参数在小规模数据上进行实验。

安全与许可

安全：有关安全问题的详细信息，请参阅 CONTRIBUTING。
许可：该项目采用 Apache-2.0 许可证。

搜集汇总

数据集介绍

构建方式

ChaI-TeA数据集的构建基于Open Assistant (OASST)和ShareGPT两个主要数据集，涵盖了用户与基于LLM的聊天机器人之间的对话。为了适应自动补全任务，研究人员从每个用户回合中提取所有可能的前缀，并将其与完整的对话历史配对作为上下文。每个前缀的后续部分被视为真实补全，从而形成了一个包含大量对话片段的数据集。通过这种方式，数据集能够模拟用户在输入过程中的不同阶段，为自动补全模型提供了丰富的训练和评估场景。

特点

ChaI-TeA数据集的特点在于其多样性和复杂性。首先，它涵盖了广泛的对话主题和语言风格，反映了用户与聊天机器人交互的真实场景。其次，数据集中的对话通常较长且结构松散，这与传统的结构化查询或代码补全任务有显著不同。此外，数据集还包含了不同长度的补全建议，从单个单词到完整的句子，使得模型能够在不同粒度上进行补全。这种多样性使得ChaI-TeA成为一个具有挑战性的基准，能够有效评估模型在复杂对话场景中的表现。

使用方法

ChaI-TeA数据集的使用方法主要围绕自动补全任务的评估展开。研究人员可以通过该数据集测试不同模型在给定对话上下文和当前输入前缀的情况下，生成补全建议的能力。评估时，模型需要提供一组补全建议，用户可以选择接受其中一个建议或继续输入。为了量化模型的性能，研究人员采用了多种指标，如`saved@k`，用于衡量模型在减少用户输入方面的效果。此外，数据集还支持对模型在不同上下文长度和补全长度下的表现进行分析，帮助研究人员优化模型的补全策略和排名机制。

背景与挑战

背景概述

ChaI-TeA数据集由亚马逊研究院和以色列理工学院的研究团队于2024年提出，旨在评估基于大型语言模型（LLM）的聊天机器人交互中的自动补全任务。随着LLM在自然语言处理领域的广泛应用，用户与聊天机器人的交互变得愈发复杂和多样化，用户往往需要花费大量时间和精力来构建完整的对话。ChaI-TeA的提出为这一领域提供了一个评估框架，包括任务定义、数据集和评估指标，旨在帮助研究人员和开发者优化自动补全技术，提升用户体验。该数据集的发布为未来的研究奠定了基础，推动了LLM聊天机器人交互自动补全技术的发展。

当前挑战

ChaI-TeA数据集面临的挑战主要集中在两个方面。首先，自动补全任务的核心挑战在于如何准确生成并排序补全建议。尽管现有的LLM能够生成合理的补全建议，但在排序这些建议时表现不佳，导致用户无法高效地选择最佳补全内容。其次，数据集的构建过程中也面临挑战，包括如何从现有的聊天对话中提取有效的上下文和前缀，并确保补全建议的多样性和准确性。此外，由于用户与聊天机器人的交互通常涉及长文本和多样化的话题，如何在低延迟的情况下生成高质量的补全建议也是一个重要的技术难题。这些挑战为未来的研究提供了方向，特别是在补全建议的排序和生成效率方面。

常用场景

经典使用场景

ChaI-TeA数据集主要用于评估基于大型语言模型（LLM）的聊天机器人的自动补全功能。该数据集通过模拟用户与聊天机器人的对话历史，生成并评估自动补全建议的质量。其经典使用场景包括在用户输入过程中，系统能够根据上下文提供合适的补全建议，从而减少用户的输入时间和认知负担。

实际应用

在实际应用中，ChaI-TeA数据集可以用于优化聊天机器人的用户体验。通过集成自动补全功能，用户在与聊天机器人交互时，能够更快地表达需求，减少输入时间。这种技术尤其适用于需要频繁输入长文本的场景，如客户服务、教育辅导和知识问答等领域。

衍生相关工作

ChaI-TeA数据集衍生了一系列相关研究，主要集中在如何改进自动补全模型的生成和排序能力。例如，研究者们探索了如何利用更长的对话历史来生成更准确的补全建议，以及如何通过调整模型的超参数来平衡性能与延迟。此外，该数据集还推动了针对不同长度补全建议的研究，进一步提升了自动补全系统的实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集