Gender and Generations Survey (GGS)|性别研究数据集|社会变迁数据集
收藏
- Gender and Generations Survey (GGS) 首次发表,旨在研究不同性别和年龄群体在社会、经济和家庭生活中的角色与态度。
- GGS 首次应用于欧洲社会调查(ESS),为跨国家比较提供了数据支持。
- GGS 数据集更新,增加了对新兴社会问题的调查,如数字鸿沟和性别平等。
- GGS 数据集被广泛应用于学术研究,特别是在社会学和人口学领域,成为重要的参考数据源。
- GGS 数据集再次更新,引入了对老龄化社会和代际关系的深入调查。
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
TCGA (The Cancer Genome Atlas)
TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。
portal.gdc.cancer.gov 收录