five

RedNote-Vibe

收藏
arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://wvwx1ohogshu.co11
下载链接
链接失效反馈
官方服务:
资源简介:
RedNote-Vibe是一个纵向时间跨度为5年的社交媒体AI生成文本数据集,来源于小红书平台。数据集包含用户互动指标(如点赞、评论)和时间戳,时间跨度从预大型语言模型时期到2025年7月。RedNote-Vibe是首个用于社交媒体AI生成文本分析的纵向数据集,包含用户互动指标和纵向时间线,能够研究AI生成文本的时间动态和用户互动模式。数据集包含120,000个笔记,涵盖了从2020年1月到2025年7月的内容,并提供了丰富的元数据,包括主题、标签、时间戳、用户互动指标(即点赞、评论、收藏)以及由一组多样化的LLMs生成的并行AI生成文本变体。该数据集旨在解决社交媒体中AI生成文本的动态检测问题,并为研究人员提供一个自然的研究平台来观察LLMs在社交媒体中的演变和影响。

RedNote-Vibe is a longitudinal social media AI-generated text dataset spanning 5 years, sourced from the Xiaohongshu platform. The dataset includes user interaction metrics (such as likes and comments) and timestamps, covering the period from the pre-large language model era to July 2025. RedNote-Vibe is the first longitudinal dataset dedicated to social media AI-generated text analysis, incorporating user interaction metrics and longitudinal timelines, enabling research on the temporal dynamics and user interaction patterns of AI-generated text. The dataset contains 120,000 posts, with content ranging from January 2020 to July 2025, and provides rich metadata including topics, tags, timestamps, user interaction metrics (i.e., likes, comments, and favorites), as well as parallel AI-generated text variants generated by a diverse set of LLMs. This dataset aims to address the dynamic detection problem of AI-generated text on social media, and provides researchers with a natural research platform to observe the evolution and impact of LLMs in social media.
提供机构:
清华大学, 北京邮电大学, 香港都会大学, 深圳大学
创建时间:
2025-09-26
搜集汇总
数据集介绍
构建方式
在社交媒体人工智能生成文本研究领域,RedNote-Vibe数据集通过系统化采集流程构建而成。该数据集从小红书平台收集了2020年1月至2025年7月期间的98,714条笔记,覆盖职业、健康、旅行等十大内容领域。为确保数据质量,研究团队采用Qwen-2.5-7B模型进行主题分类过滤,每条样本均包含文本内容、时间戳和用户互动指标等元数据。特别值得注意的是,数据集通过种子生成策略构建了平行AI文本集合,使用17个代表性大语言模型基于预LLM时期的人类笔记生成风格相似但语义不同的内容,形成了完整的AIGT检测基准。
特点
该数据集展现出三个显著特征:其时间跨度覆盖了从ChatGPT发布前到2025年7月的完整周期,为研究AI文本在社交媒体上的演化规律提供了纵向视角;数据集结构包含已验证标签的训练验证集和未标注的探索集,支持真实场景下的内容演化分析;丰富的元数据体系不仅包含基础互动指标,还通过心理语言学特征框架量化了文本的情感基础、认知架构等四个维度,为理解AI文本与用户互动的复杂关系提供了多维分析基础。这种设计使得数据集能够捕捉社交媒体内容的长尾分布特性和不同领域的互动差异模式。
使用方法
研究者在运用该数据集时可开展三个层次的分析任务:基础层面的AIGT二元分类任务用于区分人类与AI生成文本;进阶的AI提供商识别任务要求模型在六个主要提供商间进行归属判断;最细粒度的模型识别任务则需要区分17个具体AI模型。数据集的时间维度支持研究者观察AI内容比例的演变趋势,分析平台治理措施对AI内容传播的影响。通过结合心理语言学特征框架,研究者不仅能实现高精度检测,还能深入解读不同语言特征与用户互动指标间的关联机制,为社交媒体生态治理提供理论依据。
背景与挑战
背景概述
随着大型语言模型的广泛应用,人工智能生成文本在社交媒体平台上的传播引发了新的研究需求。RedNote-Vibe数据集由清华大学等机构的研究团队于2025年提出,作为首个专注于社交媒体动态文本分析的纵向数据集,其数据来源于小红书平台,覆盖了从2020年1月至2025年7月的时间跨度。该数据集通过整合用户互动指标与时间戳信息,致力于探索人工智能生成内容在社交环境中的演化规律与用户行为模式,为数字内容真实性研究提供了重要基础。
当前挑战
在社交媒体环境中,人工智能生成文本检测面临双重挑战:其一是动态内容与用户互动模式的复杂性,传统静态分类方法难以捕捉语言风格与社交指标间的关联;其二是数据构建过程中需平衡真实性与生成多样性,通过多模型并行生成策略确保文本风格仿真的同时,还需维持社交媒体特有的语言特征与时间维度的一致性。
常用场景
经典使用场景
在社交媒体内容分析领域,RedNote-Vibe数据集被广泛应用于追踪人工智能生成文本的时序演变规律。研究者通过该数据集长达五年的纵向观测窗口,能够深入分析AI生成内容在用户互动指标驱动下的动态传播模式,揭示不同内容领域下AI文本与人类创作在点赞、评论、收藏等维度上的差异化表现。
实际应用
在平台治理实践中,该数据集支撑的内容动态监测系统可实时识别AI生成内容的渗透趋势,为制定针对性监管策略提供数据依据。教育机构借助其构建的检测框架能够培养学生对合成内容的辨识能力,而内容创作者则通过分析用户互动模式优化人机协作的内容生产策略。
衍生相关工作
基于该数据集构建的心理语言学检测框架PLAD催生了系列可解释性AIGT研究,其特征工程方法被拓展应用于跨平台内容认证系统。后续研究进一步融合时序建模技术,开发出能适应模型快速迭代的动态检测算法,并在多模态内容生成检测领域形成新的技术分支。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作