EDTok
收藏arXiv2025-05-05 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.02250v1
下载链接
链接失效反馈官方服务:
资源简介:
EDTok数据集是一个包含43,040个TikTok视频的数据集,这些视频是通过与饮食失调相关的关键词和标签收集的,涵盖了从2019年1月到2024年6月的时间段。数据集不仅包括视频,还包括文本内容,为研究饮食失调与社交媒体的交叉提供了独特的资源。数据集可以帮助分析饮食失调内容的传播和调节、用户参与度,以及COVID-19大流行对饮食失调趋势的影响,旨在为制定减轻接触有害内容的风险的策略提供信息,并为研究数字健康和社交媒体在塑造心理健康方面的作用做出贡献。
The EDTok dataset is a collection of 43,040 TikTok videos collected using keywords and hashtags related to eating disorders, spanning the period from January 2019 to June 2024. The dataset includes not only the video content but also associated textual metadata, serving as a unique resource for studying the intersection of eating disorders and social media. It can facilitate analyses of the dissemination, moderation, and user engagement of eating disorder-related content, as well as the impact of the COVID-19 pandemic on eating disorder trends. The dataset aims to inform the development of strategies to mitigate the risk of exposure to harmful content, and contribute to research on the role of digital health and social media in shaping mental health.
提供机构:
南加州大学维特比工程学院计算机科学系, 南加州大学信息科学研究所
创建时间:
2025-05-05
搜集汇总
数据集介绍

构建方式
EDTok数据集的构建采用了系统化的方法,通过TikTok Research API收集了2019年1月至2024年6月期间与饮食障碍相关的视频。研究团队使用了一系列精心筛选的关键词和标签(如#edrecovery、#anarecovery等)来查询和获取视频元数据,包括发布时间、用户互动数据等。随后,利用PykTok工具下载视频,并通过Google Gemini模型对视频内容进行过滤和分类,确保数据与饮食障碍主题高度相关。最终数据集包含43,040个视频及其相关评论,确保了数据的全面性和准确性。
特点
EDTok数据集具有多模态特性,不仅包含视频文件,还涵盖了丰富的元数据和用户评论,为研究饮食障碍在社交媒体上的表现提供了多维度的分析基础。数据集时间跨度覆盖了COVID-19疫情前后,能够捕捉到全球健康危机对饮食障碍讨论的影响。此外,数据集中的视频内容涉及饮食障碍的多个方面,如康复故事、身体形象焦虑等,为研究社交媒体对心理健康的影响提供了独特视角。
使用方法
EDTok数据集的使用方法多样,研究者可以通过分析视频内容、元数据和用户评论,探索饮食障碍相关话题在TikTok上的传播模式和用户互动行为。数据集适用于情感分析、主题建模和时间序列分析等多种研究方法。此外,数据集中的视频ID允许研究者通过TikTok API获取完整的视频对象,进一步支持多模态分析。使用该数据集时,需遵守TikTok的API使用条款,确保研究符合伦理和数据隐私要求。
背景与挑战
背景概述
EDTok数据集由南加州大学计算机科学系的Charles Bickham等研究人员于2025年创建,旨在系统研究TikTok平台上与饮食障碍相关的内容。该数据集收录了2019年1月至2024年6月间的43,040个视频,涵盖COVID-19疫情前后关键时期,通过精心筛选的饮食障碍相关关键词和标签进行采集。作为首个专注于短视频平台饮食障碍内容的多模态数据集,其创新性体现在结合视频、文本及用户互动数据,为研究数字媒体对心理健康影响提供了重要实证基础。该数据集不仅填补了社交媒体心理健康研究的空白,更因其时效性和规模成为理解疫情对饮食障碍影响的关键资源。
当前挑战
EDTok数据集面临双重挑战:在研究层面,饮食障碍内容具有高度敏感性且常采用隐晦表达(如#edr3c0very等变体标签),这对内容识别与分类提出严峻考验;在技术层面,TikTok API的访问限制(包括速率限制和令牌时效)导致大规模数据采集困难,且约20%的无关视频需通过人工与AI协同过滤。多模态数据分析中,视频内容与文本描述的语义对齐、用户生成内容的动态演化,以及平台内容审核政策对数据完整性的影响,均为持续的研究难点。
常用场景
经典使用场景
EDTok数据集在心理健康和社交媒体研究领域具有重要价值,特别是在探讨饮食失调与社交平台互动关系方面。该数据集收录了2019年至2024年间43,040条与饮食失调相关的TikTok视频,涵盖了疫情前后的关键时期,为研究社交平台对饮食失调内容传播的影响提供了丰富素材。研究人员可通过分析视频内容、用户互动及时间趋势,揭示饮食失调内容在TikTok上的传播模式及其对用户行为的影响。
衍生相关工作
EDTok数据集已衍生出多项经典研究,例如探讨饮食失调内容在TikTok上的传播机制、用户情感反应及其与心理健康的关系。相关研究还分析了疫情对饮食失调讨论的影响,以及平台审核策略的效果。这些工作不仅扩展了社交媒体与心理健康的研究边界,还为后续研究提供了方法论和数据支持。
数据集最近研究
最新研究方向
随着社交媒体在心理健康领域的影响力日益凸显,EDTok数据集为研究TikTok平台上的饮食障碍内容提供了重要资源。该数据集的最新研究方向聚焦于多模态分析,结合视频内容、文本描述和用户互动数据,深入探索饮食障碍相关内容的传播机制及其对青少年心理健康的影响。研究热点包括COVID-19大流行期间饮食障碍内容的激增现象、平台内容审核策略的有效性,以及用户生成内容中隐含的情感倾向与恢复主题。这些研究不仅填补了数字健康领域的空白,还为公共卫生干预和社交媒体政策制定提供了科学依据。
相关研究论文
- 1EDTok: A Dataset for Eating Disorder Content on TikTok南加州大学维特比工程学院计算机科学系, 南加州大学信息科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



