five

USDC

收藏
arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://anonymous.4open.science/r/USDC-0F7F
下载链接
链接失效反馈
官方服务:
资源简介:
USDC数据集由波恩大学和柏林工业大学等机构创建,包含764个多用户Reddit对话,用于分析用户立场和教条主义。数据集涵盖1,528个用户级别的教条主义样本和9,618个立场样本,通过大型语言模型Mistral Large和GPT-4进行标注。创建过程涉及使用LLMs自动化人类标注过程,以捕捉用户在对话中的观点变化。该数据集主要应用于个性化服务、市场研究、政治活动等领域,旨在解决复杂对话中用户立场和观点变化的自动识别问题。

The USDC dataset was developed by institutions including the University of Bonn and the Technical University of Berlin. It contains 764 multi-user Reddit conversations designed for analyzing user stances and dogmatism. The dataset encompasses 1,528 user-level dogmatism samples and 9,618 stance samples, which were annotated using the large language models Mistral Large and GPT-4. The dataset creation process leveraged LLMs to automate human annotation workflows, aiming to capture shifts in users' perspectives across conversations. This dataset is primarily applied in domains such as personalized services, market research, and political campaigns, with the goal of addressing the automatic identification of user stances and perspective changes in complex dialogues.
提供机构:
波恩大学, 德国; 柏林工业大学, 德国; Couture.ai, 印度; 微软, 海得拉巴, 印度
创建时间:
2024-06-25
搜集汇总
数据集介绍
main_image_url
构建方式
USDC数据集的构建采用了大型语言模型(LLMs)Mistral Large和GPT-4来自动化标注过程。研究人员从Reddit上收集了764个多用户对话,并使用这些LLMs在零样本、单样本和少样本设置下对用户立场和教条主义进行标注。LLMs的标注结果通过多数投票法来确定最终的标注,从而构建了USDC数据集。USDC数据集包含了1,528个用户级别的教条主义样本和9,618个立场样本。
特点
USDC数据集的主要特点包括:1)全长度多用户对话:USDC数据集能够捕捉到多用户对话中的语境和观点变化,这使其能够作为指令调整用户意见数据集和评估基准。2)教条主义标注:USDC数据集提供了对用户在整个对话中的整体意见的标注,这有助于研究用户在对话中的意见波动和教条主义倾向。3)LLMs标注:USDC数据集使用LLMs进行标注,这使其成为衡量当前LLMs在理解复杂任务(如捕捉意见)方面的全面性的宝贵资源。
使用方法
USDC数据集的使用方法包括:1)指令调整:研究人员可以使用USDC数据集对小型语言模型(SLMs)进行指令调整,以提高SLMs在立场和教条主义检测任务上的性能。2)评估基准:USDC数据集可以作为评估SLMs在立场和教条主义检测任务上的性能的基准。3)跨模态评估:研究人员可以将SLMs在USDC数据集上的性能与在SPINOS数据集上的性能进行比较,以评估SLMs在不同数据集上的表现。
背景与挑战
背景概述
用户在长篇对话中的立场和教条主义识别对于个性化服务、市场研究、政治活动、客户服务、冲突解决、定向广告和内容审核等领域至关重要。USDC数据集由Mounika Marreddy、Subba Reddy Oota、Venkata Charan Chinni、Manish Gupta和Lucie Flek等研究人员创建,旨在解决手动标注数据集的耗时和高成本问题,并提高标注质量。该数据集基于Reddit平台上的多用户对话,利用大型语言模型(LLMs)如Mistral Large和GPT-4自动化标注过程,创建了一个包含764个多用户对话的数据集,其中包含1,528个用户层面的教条主义样本和9,618个立场样本。USDC数据集的创建对于语言模型的训练和评估具有重要意义,有助于推动相关领域的研究进展。
当前挑战
USDC数据集面临的主要挑战包括:1) 在长篇对话中识别用户的立场和教条主义,尤其是在用户观点发生微妙变化时;2) 构建过程中,需要处理LLMs可能出现的错误和混淆,如作者ID和标签的错误匹配;3) 在标注过程中,LLMs之间的标注一致性有限,需要进一步研究和改进。此外,USDC数据集目前仅包含英文对话,未来需要扩展到多语言环境,以提高数据集的普适性和实用性。
常用场景
经典使用场景
USDC数据集主要应用于理解用户在长对话线程中的立场和教条主义。该数据集包含了来自Reddit的764个多用户对话,这些对话涉及22个子版块,包括1,528个用户级别的教条主义样本和9,618个立场样本。USDC数据集的典型使用场景包括:1) 对话理解,2) 市场研究,3) 政治竞选,4) 客户服务,5) 冲突解决,6) 目标广告,7) 内容审核。
衍生相关工作
USDC数据集的衍生相关工作主要集中在以下几个方面:1) 使用LLM自动标注用户意见,2) 训练小语言模型以生成立场和教条主义标签,3) 评估LLM生成标注的质量。这些工作对于推动对话理解和自然语言处理技术的发展具有重要意义。
数据集最近研究
最新研究方向
USDC数据集的最新研究方向主要集中在利用大型语言模型(LLMs)自动标注用户在长对话中的立场和教条主义程度。这一方向不仅有助于提升个性化服务、市场研究、政治竞选、客户服务、冲突解决、针对性广告和内容审核等领域的技术水平,而且对于理解人类在对话中的动态观点和态度变化具有重要意义。USDC数据集的创建为研究LLMs在复杂自然语言处理任务中的应用提供了新的可能性,同时也为评估和改进LLMs在理解用户意见方面的性能提供了基准。未来研究可能会扩展到多语言对话,并探索更复杂的用户特征建模,以进一步推动LLMs在对话理解和用户行为分析方面的应用。
相关研究论文
  • 1
    USDC: A Dataset of $\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations波恩大学, 德国; 柏林工业大学, 德国; Couture.ai, 印度; 微软, 海得拉巴, 印度 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作