ImgFlip575K Memes Dataset|表情包生成数据集|网络文化数据集
收藏ImgFlip575K Memes Dataset 概述
数据集信息
数据集大小
- 总模因数: 575948
数据来源与用途
- 来源: 从 Imgflip 网站抓取了最受欢迎的100个模因。
- 用途: 用于 AI生成模因。
- 扩展: 可与 Imgflip API 结合使用,为模因添加标题。
数据集内容
-
流行模因列表:
./dataset/popular_100_memes.csv
-
模因统计信息:
./dataset/statistics.json
-
模因模板:
./dataset/templates
- 模板示例: yaml { "title": "10 Guy Meme Template", "template_url": "https://imgflip.com/s/meme/10-Guy.jpg", "alternative_names": "Really High Guy, Stoner Stanley, Brainwashed Bob, stoned guy, ten guy, stoned buzzed high dude bro", "template_id": "101440", "format": "jpg", "dimensions": "500x454 px", "file_size": "24 KB" }
-
模因实例:
./dataset/memes
- 模因示例: yaml { "url": "https://i.imgflip.com/2cpxta.jpg", "post": "https://imgflip.com/i/2cpxta", "metadata": { "views": "2,426", "img-votes": "4", "title": "Watch out or itll eat you whole", "author": "PLarsen985" }, "boxes": [ "I USED TO CODE WITH PYTHON", "BUT I QUIT AFTER THE FIRST TIME IT BIT ME" ] }
数据集使用
- 数据集状态: 已预先抓取,位于
./dataset
目录。 - 更新数据: 如需获取最新模因,可执行以下命令: sh $> cd project $> pip install $> run.sh

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录