five

Xiaohongshu AIGC Comments and Posts Dataset

收藏
github2024-11-01 更新2024-11-08 收录
下载链接:
https://github.com/coralr-1/Xiaohongshu-AIGC-Comments-and-Posts-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集从小红书平台收集,专注于用户生成的人工智能生成内容(AIGC)。它涵盖了广告、汽车、时尚、食品、文学、印刷、体育和技术等多个类别。数据集包含用户评论和帖子,信息包括用户ID、内容、时间戳、点赞数和情感分析,可用于分析公众对AIGC的看法和态度。

This dataset is collected from the Xiaohongshu platform, focusing on user-generated artificial intelligence-generated content (AIGC). It encompasses multiple categories including advertising, automotive, fashion, food, literature, printing, sports, and technology. The dataset contains user comments and posts, with information including user ID, content, timestamp, like count, and sentiment analysis, which can be used to analyze public perceptions and attitudes towards AIGC.
创建时间:
2024-11-01
原始信息汇总

Xiaohongshu AIGC Comments and Posts Dataset

数据集概述

该数据集从“小红书”平台收集,专注于用户生成的关于人工智能生成内容(AIGC)的内容。涵盖广告、汽车、时尚、食品、文学、印刷、体育和技术等多个类别。数据集包含用户评论和帖子,信息包括用户ID、内容、时间戳、点赞数和情感分析,可用于分析公众对AIGC的看法和态度。

数据结构

数据集按以下方式组织:

  • 数据目录:数据集分为多个主题文件夹(例如,ai-Advertisementai-technology),每个文件夹包含与该主题相关的评论和帖子数据。
  • 文件结构
    • Comments-<Theme>.csv:包含特定主题的用户评论。
    • Post-<Theme>.csv:包含特定主题的帖子数据。

示例数据结构

例如,在ai-technology文件夹中,文件Comments-technological development.csv包含以下字段:

字段名 描述
comment_id 评论的唯一标识符
create_time 创建时间戳
ip_location 用户的IP位置
note_id 评论关联的帖子ID
content 评论内容
user_id 用户的唯一标识符
nickname 用户的昵称
avatar 用户头像的链接
sub_comment_count 子评论的数量
parent_comment_id 父评论的ID
last_modify_ts 最后修改时间戳
like_count 点赞数
sentiment 评论的情感(例如,正面、负面)

示例数据

csv comment_id,create_time,ip_location,note_id,content,user_id,nickname,avatar,sub_comment_count,parent_comment_id,last_modify_ts,like_count,sentiment 658e7ddd000000001a00e241,1703837149000,,658e7d1d0000000012004a26,"Six fingers aren’t obvious enough?",608af36300000000010063ee,momo,"https://sns-avatar-qc.xhscdn.com/avatar/1040g2...",303,0,1728458720283,28k,positive 658ef186000000001702da48,1703866758000,,658e7d1d0000000012004a26,"With this body type, there would be no collarbones sitting like that",58de279582ec3932ec4c73b5,"Momo in Renovation","https://sns-avatar-qc.xhscdn.com/avatar/58de27...",1059,0,1728458720285,15k,positive

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自小红书平台,专注于人工智能生成内容(AIGC)的用户生成内容。数据集涵盖了多个类别,包括广告、汽车、时尚、食品、文学、印刷、体育和技术。通过系统性地收集用户评论和帖子,数据集不仅包含了用户ID、内容、时间戳、点赞数和情感分析等基本信息,还根据不同主题进行了分类整理,形成了多个主题文件夹,每个文件夹内包含相应主题的评论和帖子数据。
特点
此数据集的显著特点在于其多维度的信息结构和丰富的主题分类。每个数据文件不仅记录了用户的评论内容,还包含了用户的IP位置、评论的点赞数、情感倾向等详细信息,为深入分析用户对AIGC的态度和感知提供了全面的数据支持。此外,数据集的分类结构使得研究者能够针对特定主题进行精细化分析,从而揭示不同领域用户对AIGC的独特看法。
使用方法
使用该数据集时,研究者可以根据研究需求选择特定的主题文件夹,加载相应的CSV文件进行数据分析。数据集提供了详细的字段说明,包括评论ID、创建时间、IP位置、帖子ID、评论内容、用户ID、昵称、头像链接、子评论数量、父评论ID、最后修改时间、点赞数和情感倾向等。通过这些字段,研究者可以进行情感分析、用户行为研究、内容趋势分析等多方面的研究工作。
背景与挑战
背景概述
小红书AIGC评论与帖子数据集(Xiaohongshu AIGC Comments and Posts Dataset)是由小红书平台收集的用户生成内容数据集,专注于人工智能生成内容(AIGC)的讨论。该数据集涵盖了广告、汽车、时尚、食品、文学、印刷、体育和技术等多个类别,包含了用户评论和帖子,以及用户ID、内容、时间戳、点赞数和情感分析等信息。这些数据有助于分析公众对AIGC的认知和态度,对相关领域的研究具有重要意义。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性使得数据清洗和标准化成为一项艰巨任务。其次,用户生成内容的情感分析需要高精度的自然语言处理技术,以确保情感标签的准确性。此外,数据集的规模和结构要求高效的存储和检索机制,以支持大规模的数据分析和应用。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效能提出了考验。
常用场景
经典使用场景
在人工智能生成内容(AIGC)领域,Xiaohongshu AIGC Comments and Posts Dataset 被广泛用于分析用户对AIGC的态度和感知。通过该数据集,研究者可以深入探讨用户在不同主题下的评论和帖子,如广告、时尚、科技等,从而揭示公众对AIGC的接受度和情感倾向。
实际应用
在实际应用中,Xiaohongshu AIGC Comments and Posts Dataset 被用于社交媒体分析、市场调研和品牌管理。企业可以利用该数据集了解消费者对AIGC内容的反应,优化营销策略和产品设计。此外,政府和非营利组织也可通过该数据集评估AIGC对社会的影响,制定相应的监管措施。
衍生相关工作
基于Xiaohongshu AIGC Comments and Posts Dataset,研究者们开展了多项经典工作,包括情感分析模型的优化、用户行为预测以及跨平台内容传播研究。这些工作不仅提升了AIGC内容的质量评估标准,还为社交媒体数据分析提供了新的方法论,推动了相关领域的技术进步和应用拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作