YouNiverse
收藏github2024-11-08 更新2024-11-12 收录
下载链接:
https://github.com/nmrenyi/ada-dataset-process
下载链接
链接失效反馈官方服务:
资源简介:
YouNiverse数据集包含YouTube视频的元数据,按不喜欢次数和不喜欢次数与喜欢次数的相对比例排序,分为绝对排序和相对排序两种文件。数据集包含视频的基本信息,如分类、上传日期、抓取日期、喜欢次数、不喜欢次数、观看次数、显示ID和频道ID。数据集进一步按特定类别和上传年份过滤,生成多个CSV文件,并压缩存储在共享的Google Drive中。
The YouNiverse dataset contains metadata of YouTube videos, which is sorted in two ways: by the absolute count of dislikes (for absolute-sorted files) and by the relative ratio of dislikes to likes (for relative-sorted files). The dataset includes basic video information such as category, upload date, crawl date, number of likes, number of dislikes, view count, display ID, and channel ID. It is further filtered by specific categories and upload years to generate multiple CSV files, which are compressed and stored in a shared Google Drive.
创建时间:
2024-11-07
原始信息汇总
ada-dataset-process
数据集描述
该数据集用于处理YouNiverse数据集,为ADAcadabra2048项目提供支持。
文件描述
原始数据文件
yt_metadata_en.jsonl: 原始视频元数据文件。yt_metadata_en_sorted_abs.jsonl: 按dislike_count绝对值降序排序的元数据文件,大小为97.62GB。yt_metadata_en_sorted_rel.jsonl: 按dislike_count相对值降序排序的元数据文件,大小为99.93GB。
基本信息提取文件
yt_metadata_en_sorted_abs_basic.csv: 从yt_metadata_en_sorted_abs.jsonl提取的基本信息文件,大小为5.54GB。yt_metadata_en_sorted_rel_basic.csv: 从yt_metadata_en_sorted_rel.jsonl提取的基本信息文件,大小为5.54GB。yt_metadata_en_sorted_abs_basic.csv.zip:yt_metadata_en_sorted_abs_basic.csv的压缩文件,大小为1.4GB。yt_metadata_en_sorted_rel_basic.csv.zip:yt_metadata_en_sorted_rel_basic.csv的压缩文件,大小为1.77GB。
特定类别和年份过滤文件
specified_category_year_abs.zip: 按绝对dislike_count排序的特定类别和年份过滤文件,大小为1.35GB。specified_category_year_rel.zip: 按相对dislike_count排序的特定类别和年份过滤文件,大小为1.64GB。
文件存储位置
所有压缩文件存储在共享的Google Drive中,路径为ADAcadabra/dataset。
联系信息
如有进一步问题,请联系Ren Yi (yi.ren@epfl.ch)。
搜集汇总
数据集介绍

构建方式
在构建YouNiverse数据集的过程中,首先对原始视频元数据文件`yt_metadata_en.jsonl`进行了排序处理。排序依据为`dislike_count`的绝对值和相对值(即`dislike_count / (like_count + dislike_count)`),分别生成了`yt_metadata_en_sorted_abs.jsonl`和`yt_metadata_en_sorted_rel.jsonl`。随后,从这两个排序后的文件中提取了包括`categories`、`upload_date`、`crawl_date`、`like_count`、`dislike_count`、`view_count`、`display_id`和`channel_id`等基本信息,并将其存储为`yt_metadata_en_sorted_abs_basic.csv`和`yt_metadata_en_sorted_rel_basic.csv`。进一步地,根据特定类别和上传年份对数据进行了筛选,生成了255个细分文件,分别存储在`specified_category_year_abs`和`specified_category_year_rel`文件夹中。
特点
YouNiverse数据集的显著特点在于其对视频元数据的细致分类和排序。首先,数据集通过绝对和相对的`dislike_count`对视频进行了排序,提供了两种不同的视角来分析视频的受欢迎程度。其次,数据集进一步根据视频的类别和上传年份进行了细分,生成了255个具体文件,便于用户针对特定领域和时间段进行深入研究。此外,数据集在存储时进行了压缩处理,有效减少了存储空间的需求,同时保持了数据的完整性和可访问性。
使用方法
使用YouNiverse数据集时,用户首先可以从共享的Google Drive下载压缩文件`yt_metadata_en_sorted_abs_basic.csv.zip`和`yt_metadata_en_sorted_rel_basic.csv.zip`,解压后即可获取包含基本信息的CSV文件。若需进一步细分数据,用户可下载并解压`specified_category_year_abs.zip`和`specified_category_year_rel.zip`,获取按类别和年份筛选后的数据文件。这些文件以CSV格式存储,便于导入各种数据分析工具进行处理。如需更多帮助,用户可联系Ren Yi获取进一步的技术支持。
背景与挑战
背景概述
YouNiverse数据集是由Bich Ngoc Doan主导,为ADAcadabra2048项目专门处理的一个大规模视频元数据集。该数据集的核心研究问题在于通过分析YouTube视频的点赞和点踩数据,探索视频内容的社会反馈模式。数据集的构建始于对原始视频元数据文件`yt_metadata_en.jsonl`的排序处理,分别按绝对和相对的点踩数量进行排序,生成了`yt_metadata_en_sorted_abs.jsonl`和`yt_metadata_en_sorted_rel.jsonl`。这些文件不仅提供了视频的基本信息,还通过进一步筛选和压缩,形成了便于处理的CSV格式文件。YouNiverse数据集的创建不仅为视频内容分析提供了丰富的数据资源,也为社交媒体研究领域带来了新的视角和方法。
当前挑战
YouNiverse数据集在构建过程中面临了多个挑战。首先,处理和存储近百GB的原始数据文件需要高效的计算资源和存储解决方案。其次,从原始数据中提取和筛选特定类别的视频信息,涉及复杂的过滤和分类操作,这要求精确的数据处理技术和强大的数据管理能力。此外,数据集的多样性和规模也带来了数据一致性和完整性的挑战,特别是在处理可能存在的空文件和数据缺失时。这些挑战不仅影响了数据集的构建效率,也对后续的数据分析和应用提出了更高的要求。
常用场景
经典使用场景
YouNiverse数据集在社交媒体分析领域中被广泛应用于视频内容的情感分析和用户行为研究。通过分析视频的点赞和点踩数据,研究人员可以深入探讨公众对不同类别视频的情感倾向,以及这些情感如何随时间变化。例如,研究者可以利用该数据集分析特定年份和类别的视频,以揭示社会趋势和公众情绪的变化。
解决学术问题
YouNiverse数据集为解决社交媒体中的情感分析和用户行为预测提供了宝贵的资源。通过分析视频的点赞和点踩数据,研究人员可以构建模型来预测用户的情感反应,从而提高社交媒体平台的用户参与度和内容推荐系统的准确性。此外,该数据集还支持研究视频内容的时间序列分析,帮助理解社会事件如何影响公众情绪。
衍生相关工作
YouNiverse数据集的发布激发了大量相关研究工作,特别是在社交媒体分析和情感计算领域。例如,有研究利用该数据集开发了新的情感分析算法,以提高对用户情感反应的预测准确性。此外,还有研究基于该数据集的时间序列分析,探讨了社会事件对公众情绪的长期影响。这些研究不仅推动了学术界的发展,也为实际应用提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



