GroupL_Project

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/eduhk-compling/GroupL_Project

下载链接

链接失效反馈

官方服务：

资源简介：

该项目构建了一个针对中国社交媒体上美食探索视频的语言策略多模态语料库。数据集以知名博主刁月社食语记的视频为核心，包含约1,000条条目，总计90分钟的转录视频内容。数据以CSV格式存储，详细记录了原始对话、大型语言模型（LLM）生成的合成文本、修辞策略标签（如悬念、焦虑构建、仪式补偿）以及感官描述词。在构建过程中，团队使用了Whisper等工具进行自动转录，并辅以人工校对，确保标注一致性达到85%。数据集采用对比抽样策略，将内容分为高流量和普通两组，旨在揭示不同话语模式如何影响观众参与度和消费心理。尽管聚焦于单一顶级博主，但其语言风格被视为行业标杆，具有高度代表性。该资源不仅支持自然语言处理（NLP）中的意图识别任务，还可应用于数字营销、社会学和语料库语言学等跨学科研究，有助于理解数字时代说服性话语对消费者行为的塑造效应。

创建时间：

2026-04-27

原始信息汇总

数据集概述

该数据集是一个面向中文社交媒体美食探索视频的多模态语料库，专注于知名博主“吊爷食遇记”的视频内容。

基本信息

许可证: CC-BY-4.0
语言: 中文
标签: 音频
格式: CSV

数据规模

约 1,000 条 条目
总计 90 分钟 的转录视频内容

数据内容

每条数据包含以下字段：

原始对话: 视频中的原始语音转录
合成文本: 由大语言模型生成的合成文本
修辞策略标签: 如悬念、焦虑构建、仪式补偿等
感官描述词: 与感官体验相关的词语描述

构建方法

转录工具: 使用 Whisper 进行自动转录
人工校对: 辅以人工校对，确保标注一致性达到 85%
采样策略: 采用对比采样，将内容分为 “高流量” 和 “普通” 两组

用途与应用

旨在揭示不同话语模式对受众参与度和消费心理的影响。适用于：

自然语言处理: 意图识别任务
跨学科研究: 数字营销、社会学、语料库语言学等

注意: 数据集虽仅聚焦于单一头部博主，但其语言风格被视为行业基准，具有高代表性。

搜集汇总

数据集介绍

构建方式

本数据集以中国社交媒体中备受瞩目的美食探索类视频为语料来源，聚焦于知名博主“盗月社食遇记”的影像内容。团队采用Whisper等自动化转录工具对约1000条、总时长90分钟的视频进行初步语音转写，并结合人工校对以确保文本准确性，最终实现了85%的标注一致性。在数据构建中，引入了对比采样策略，将样本划分为“高流量”与“普通”两组，以系统探究不同话语模式对受众参与度及消费心理的差异化影响。所有数据以CSV格式存储，并详细记录了原始对话、大语言模型生成的合成文本、修辞策略标签（如悬念、焦虑构建、仪式补偿）及感官描述词，构成了一个多模态的语言策略语料库。

使用方法

该数据集适用于多种研究场景，可直接应用于自然语言处理中的意图识别任务，通过训练模型学习视频中隐含的劝说策略与消费引导模式。同时，研究者可将其用于跨学科探索，例如在数字营销领域分析高流量内容的语言共性，在社会学中考察话语权力对受众心理的建构效应，或在语料库语言学中对比不同修辞手段的分布规律。数据以结构化CSV格式提供，便于加载至常见数据分析框架如Pandas或自然语言处理库如HuggingFace Transformers中进行后续处理与模型微调。

背景与挑战

背景概述

在数字媒体与消费主义深度融合的当下，社交媒体中的美食探索类视频已成为影响公众饮食观念与消费决策的重要场域。为深入解析此类视频中说服性话语策略的运作机制，GroupL_Project多模态语料库于近期应运而生，由知名博主“吊爷食遇记”的视频内容为核心构建，涵盖约1000条、总时长90分钟的转录数据。该项目依托CC-BY-4.0许可协议开源，研究团队通过Whisper自动语音识别与人工校对的协同方式，确保85%的标注一致性。数据集以对比抽样策略将内容分为“高流量”与“普通”两组，旨在揭示不同话语模式如何塑造受众参与度与消费心理。该语料库不仅为自然语言处理中的意图识别任务提供支撑，更架起了数字营销、社会学与语料库语言学之间的跨学科桥梁，为理解数字时代说服性话语对消费行为的塑造效应贡献了关键资源。

当前挑战

该数据集面临的核心挑战之一在于所解决的领域问题：如何系统性地量化社交媒体中非结构化、高度依赖情境的修辞策略（如悬念制造、焦虑构建、仪式补偿）对受众行为的实际影响，现有情感分析与主题建模方法难以捕捉此类复杂语用功能。其次，构建过程中也遭遇多重技术难题：单一博主的语料虽具行业代表性，但可能引入风格偏差，制约模型泛化能力；自动转录与人工标注之间85%的一致性虽属行业较高水平，但剩余15%的误差在细粒度修辞标签上可能放大错误传播；此外，对比抽样策略需平衡“高流量”与“普通”组的样本分布，避免因流量分布不均导致的统计效力下降。这些挑战使得该数据集在推动多模态话语分析研究的同时，也对后续数据扩充与跨领域验证提出了更高要求。

常用场景

经典使用场景

该数据集作为多模态语料库，核心用于分析中国社交媒体中美食探索视频的语言策略。其典型使用场景包括对修辞策略（如悬念构建、焦虑营造、仪式补偿等）进行标注与分类，并通过对比高流量与普通视频内容，揭示不同话语模式对受众参与度和消费心理的影响。研究者可借助该数据集训练自然语言处理模型，实现对话语意图的精准识别与分类。

解决学术问题

该数据集解决了数字时代说服性话语如何塑造消费者行为的学术问题，尤其聚焦于社交媒体中话语策略与受众互动之间的因果关系。其意义在于填补了中文语境下美食视频话语分析的多模态资源空白，为探究话语模式如何驱动流量与消费心理提供了实证基础。影响方面，该资源促进了语言学、传播学与市场营销的交叉研究，推动了对数字传播中修辞效力的理论建构。

实际应用

在实际应用中，该数据集可助力数字营销领域的内容策略优化，例如通过分析高流量视频的修辞模式，帮助内容创作者设计更具吸引力的叙事框架。此外，社交媒体平台可利用其训练算法，自动识别和推荐具有高传播潜力的话语内容，从而提升用户参与度。在电商场景中，该资源还可指导食品品牌的广告文案创作，增强消费者购买意愿。

数据集最近研究