USDC

Name: USDC
Creator: 波恩大学, 德国; 柏林工业大学, 德国; Couture.ai, 印度; 微软, 海得拉巴, 印度
Published: 2024-06-25 01:41:53
License: 暂无描述

arXiv2024-06-25 更新2024-06-27 收录

下载链接：

https://anonymous.4open.science/r/USDC-0F7F

下载链接

链接失效反馈

官方服务：

资源简介：

USDC数据集由波恩大学和柏林工业大学等机构创建，包含764个多用户Reddit对话，用于分析用户立场和教条主义。数据集涵盖1,528个用户级别的教条主义样本和9,618个立场样本，通过大型语言模型Mistral Large和GPT-4进行标注。创建过程涉及使用LLMs自动化人类标注过程，以捕捉用户在对话中的观点变化。该数据集主要应用于个性化服务、市场研究、政治活动等领域，旨在解决复杂对话中用户立场和观点变化的自动识别问题。

The USDC dataset was developed by institutions including the University of Bonn and the Technical University of Berlin. It contains 764 multi-user Reddit conversations designed for analyzing user stances and dogmatism. The dataset encompasses 1,528 user-level dogmatism samples and 9,618 stance samples, which were annotated using the large language models Mistral Large and GPT-4. The dataset creation process leveraged LLMs to automate human annotation workflows, aiming to capture shifts in users' perspectives across conversations. This dataset is primarily applied in domains such as personalized services, market research, and political campaigns, with the goal of addressing the automatic identification of user stances and perspective changes in complex dialogues.

提供机构：

波恩大学, 德国; 柏林工业大学, 德国; Couture.ai, 印度; 微软, 海得拉巴, 印度

创建时间：

2024-06-25

搜集汇总

数据集介绍

构建方式

USDC数据集的构建采用了大型语言模型（LLMs）Mistral Large和GPT-4来自动化标注过程。研究人员从Reddit上收集了764个多用户对话，并使用这些LLMs在零样本、单样本和少样本设置下对用户立场和教条主义进行标注。LLMs的标注结果通过多数投票法来确定最终的标注，从而构建了USDC数据集。USDC数据集包含了1,528个用户级别的教条主义样本和9,618个立场样本。

特点

USDC数据集的主要特点包括：1）全长度多用户对话：USDC数据集能够捕捉到多用户对话中的语境和观点变化，这使其能够作为指令调整用户意见数据集和评估基准。2）教条主义标注：USDC数据集提供了对用户在整个对话中的整体意见的标注，这有助于研究用户在对话中的意见波动和教条主义倾向。3）LLMs标注：USDC数据集使用LLMs进行标注，这使其成为衡量当前LLMs在理解复杂任务（如捕捉意见）方面的全面性的宝贵资源。

使用方法

USDC数据集的使用方法包括：1）指令调整：研究人员可以使用USDC数据集对小型语言模型（SLMs）进行指令调整，以提高SLMs在立场和教条主义检测任务上的性能。2）评估基准：USDC数据集可以作为评估SLMs在立场和教条主义检测任务上的性能的基准。3）跨模态评估：研究人员可以将SLMs在USDC数据集上的性能与在SPINOS数据集上的性能进行比较，以评估SLMs在不同数据集上的表现。

背景与挑战

背景概述

用户在长篇对话中的立场和教条主义识别对于个性化服务、市场研究、政治活动、客户服务、冲突解决、定向广告和内容审核等领域至关重要。USDC数据集由Mounika Marreddy、Subba Reddy Oota、Venkata Charan Chinni、Manish Gupta和Lucie Flek等研究人员创建，旨在解决手动标注数据集的耗时和高成本问题，并提高标注质量。该数据集基于Reddit平台上的多用户对话，利用大型语言模型（LLMs）如Mistral Large和GPT-4自动化标注过程，创建了一个包含764个多用户对话的数据集，其中包含1,528个用户层面的教条主义样本和9,618个立场样本。USDC数据集的创建对于语言模型的训练和评估具有重要意义，有助于推动相关领域的研究进展。

当前挑战

USDC数据集面临的主要挑战包括：1) 在长篇对话中识别用户的立场和教条主义，尤其是在用户观点发生微妙变化时；2) 构建过程中，需要处理LLMs可能出现的错误和混淆，如作者ID和标签的错误匹配；3) 在标注过程中，LLMs之间的标注一致性有限，需要进一步研究和改进。此外，USDC数据集目前仅包含英文对话，未来需要扩展到多语言环境，以提高数据集的普适性和实用性。

常用场景

经典使用场景

USDC数据集主要应用于理解用户在长对话线程中的立场和教条主义。该数据集包含了来自Reddit的764个多用户对话，这些对话涉及22个子版块，包括1,528个用户级别的教条主义样本和9,618个立场样本。USDC数据集的典型使用场景包括：1) 对话理解，2) 市场研究，3) 政治竞选，4) 客户服务，5) 冲突解决，6) 目标广告，7) 内容审核。

衍生相关工作

USDC数据集的衍生相关工作主要集中在以下几个方面：1) 使用LLM自动标注用户意见，2) 训练小语言模型以生成立场和教条主义标签，3) 评估LLM生成标注的质量。这些工作对于推动对话理解和自然语言处理技术的发展具有重要意义。

数据集最近研究