World Wealth and Income Database|收入分布数据集|财富研究数据集
收藏数据集概述
数据集内容
- 主题: 该数据集包含全球多个国家长期时间段(如1875年至今)的收入份额数据,重点关注高收入群体。
- 数据结构: 数据已转换为CSV格式,其中每列代表一个变量,国家和年份作为行。原始的xls文件已归档。
数据来源
- 国家列表: 包括阿根廷、澳大利亚、加拿大、中国、丹麦、芬兰、法国、德国、印度、印度尼西亚、爱尔兰、意大利、日本、毛里求斯、荷兰、新西兰、挪威、葡萄牙、新加坡、南非、西班牙、瑞典、瑞士、坦桑尼亚、英国和美国等。
- 数据更新: 数据由各国的研究人员根据特定研究更新,如Alvaredo, Facundo, Atkinson, Anthony B., Piketty, Thomas, 和 Saez, Emmanuel等。
数据使用
- 许可信息: 数据可下载并用于研究目的,引用时需注明数据来源和访问日期。对于大规模数据再利用和非研究目的的使用,许可情况不明确。
数据更新与扩展
- 未来计划: 数据库将持续更新,包括新的观测数据,并可能添加关于收入和财富分布的信息。

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Awesome JSON Datasets
一个精选的无需认证的JSON数据集列表。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
Oxford 102 Flowers
牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布
OpenDataLab 收录