five

网络空间开源跨媒体数据集

收藏
国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edc87cbb16e07753c353b1&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集主要包括主流社交网站跨媒体数据和搜索引擎跨媒体数据。主流社交网站跨媒体数据:对TikTok、YouTube、Bilibili、Twitter、微博、微信公众号、Flickr、LinkedIn、Reddit、Instagram等网站中用户个人信息、用户发布内容的跨媒体数据进行采集。其中,用户信息包括用户ID、用户名、粉丝数、关注数、原创内容数量等,用户发布内容包括用户发布的文本、图片、视频信息以及用户发出的相关评论内容、点赞数、二级评论等。搜索引擎跨媒体数据:对Google、百度、Yandex、Bing、Naver等搜索引擎的基于关键字检索的多模态结果数据采集,包含关键词相关的网页地址、图片、视频等信息。

This dataset primarily encompasses cross-modal data from mainstream social networking platforms and search engines. For cross-modal data from mainstream social networking sites: Data covering user personal information and user-generated content is collected from platforms including TikTok, YouTube, Bilibili, Twitter, Weibo, WeChat Official Accounts, Flickr, LinkedIn, Reddit, and Instagram. The collected user information includes user ID, username, number of followers, number of followings, count of original content, and other related metrics. The user-generated content comprises text, images, and videos posted by users, as well as relevant comments, like counts, secondary comments, and other associated engagement data. For cross-modal data from search engines: Multimodal retrieval results based on keyword queries are collected from search engines including Google, Baidu, Yandex, Bing, and Naver. The collected data contains webpage URLs, images, videos, and other information related to the target keywords.
提供机构:
中国科学院信息工程研究所
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含主流社交网站(如TikTok、YouTube、微博等)和搜索引擎(如Google、百度等)的跨媒体数据,涵盖用户信息和发布内容,数据量为1.24TB,适用于跨媒体分析和研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务