rq-request-question-prompts

Hugging Face2024-11-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/reddgr/rq-request-question-prompts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练和测试[reddgr/rq-request-question-prompt-classifier](https://huggingface.co/reddgr/rq-request-question-prompt-classifier)的手动标注示例，这是一个基于DistilBERT的微调模型，用于将聊天机器人提示分类为'请求'或'问题'。数据集是旨在识别定量测量大型语言模型（LLMs）生成的文本会话质量的指标的项目的一部分，并扩展到从会话上下文（如客户服务聊天、社交媒体帖子等）中提取的任何其他类型的文本。相关的Jupyter笔记本和Python脚本可以在[reddgr/chatbot-response-scoring-scbn-rqtl](https://github.com/reddgr/chatbot-response-scoring-scbn-rqtl) GitHub仓库中找到。标签包括：0表示问题，1表示请求。

创建时间：

2024-11-18

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0

数据集结构

特征

text: 字符串类型
label: 64位整数类型

分割

train:
- 字节数: 2793
- 样本数: 51
test:
- 字节数: 10515
- 样本数: 143

大小

下载大小: 12350 字节
数据集大小: 13308 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*

用途

该数据集用于训练和测试 reddgr/rq-request-question-prompt-classifier，这是一个基于 DistilBERT 的微调模型，用于将聊天机器人提示分类为 request 或 question。

该数据集是项目的一部分，旨在识别定量衡量大型语言模型（LLMs）生成的文本对话质量的指标，以及从对话上下文中提取的任何其他类型文本（如客户服务聊天、社交媒体帖子等）。

相关 Jupyter 笔记本和 Python 脚本可在以下 GitHub 仓库中找到： reddgr/chatbot-response-scoring-scbn-rqtl

搜集汇总

数据集介绍

构建方式

rq-request-question-prompts数据集通过人工标注的方式构建，旨在为训练和测试基于DistilBERT的提示分类模型提供数据支持。该数据集包含132个训练样本和182个测试样本，每个样本均被标注为‘question’或‘request’类别。数据的来源主要涉及对话式文本，如客户服务聊天记录和社交媒体帖子，以确保其在实际应用中的广泛适用性。

特点

该数据集的核心特点在于其专注于区分对话中的‘question’和‘request’两类提示，为评估大语言模型生成的对话质量提供了定量指标。数据集中的文本内容简洁明了，标注准确，能够有效支持模型在对话场景中的分类任务。此外，数据集规模适中，既保证了训练效果，又避免了过大的计算负担。

使用方法

使用该数据集时，可通过加载其提供的训练和测试文件，直接用于微调DistilBERT模型，以实现对话提示的分类任务。用户还可参考相关GitHub仓库中的Jupyter笔记本和Python脚本，进一步探索数据集的应用场景和模型优化方法。该数据集特别适用于研究对话生成质量、客户服务自动化以及社交媒体文本分析等领域。

背景与挑战

背景概述

rq-request-question-prompts数据集由reddgr团队创建，旨在通过手动标注的示例训练和测试一个基于DistilBERT的模型，该模型能够将聊天机器人提示分类为‘请求’或‘问题’。该数据集是衡量大型语言模型（LLMs）生成文本对话质量的项目的一部分，其研究背景涉及对话系统、自然语言处理以及文本生成评估等多个领域。通过该数据集，研究人员能够更精确地量化对话文本的质量，进而提升聊天机器人在客户服务、社交媒体等场景中的表现。

当前挑战

该数据集面临的主要挑战包括如何准确区分‘请求’和‘问题’这两种语义相近但功能不同的对话类型。由于两者在语言表达上可能存在重叠，标注过程中需要高度的语义理解能力。此外，构建数据集时还需确保样本的多样性和代表性，以覆盖不同场景和语境下的对话模式。另一个挑战在于如何将数据集应用于实际模型训练中，确保模型能够泛化到未见过的对话数据，并在实际应用中表现出色。

常用场景

经典使用场景

在自然语言处理领域，rq-request-question-prompts数据集被广泛用于训练和测试基于DistilBERT的模型，以区分聊天机器人提示中的‘请求’和‘问题’。这一任务对于提升聊天机器人的对话质量至关重要，尤其是在需要精确理解用户意图的场景中。

解决学术问题

该数据集解决了在对话系统中如何准确分类用户输入的学术问题。通过提供大量手动标注的‘请求’和‘问题’样本，研究者能够训练出高效的分类模型，从而提升对话系统的理解能力和响应质量。这一成果对于推动对话系统的发展具有重要意义。

衍生相关工作

基于该数据集，研究者开发了多个相关模型和工具，如reddgr/rq-request-question-prompt-classifier。这些工作不仅扩展了数据集的应用范围，还为对话系统的进一步研究提供了宝贵的资源和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集