乡音汉语方言数据集|汉语方言数据集|语音数据数据集
收藏乡音汉语方言数据集
数据概述
- 数据来源:乡音 APP(XiangYin.Mobi)用户上传的语音。
- 数据时间范围:2015-2024年9月。
- 数据格式:ogg 格式。
- 采样率:通常为 16kHz 或 44.1kHz。
- 数据量:约81个小时,7719个用户。
- 数据协议:CC BY-NC-SA 协议(不可用于商用,衍生品也须使用同协议,转载请保留全部信息和 GitHub 页面链接)。
数据内容
- 语音样本:包含读句子的语音,未包含看图说话。
- 投票数:包含语音样本获得的投票数。
- 用户信息:未包含用户相互验证数据。
数据验证
-
SHA256校验码:
749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b xiangyin_dataset_v1_20240928.tar
数据格式
Metadata.CSV
列名 | 数据类型 | 描述 |
---|---|---|
id | 整数 | 语音样本的唯一标识符 |
sound_length | 浮点数 | 语音样本的时长(秒) |
votes | 整数 | 语音样本获得的投票数 |
full_url | 字符串 | 语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL |
date | 日期 | 语音样本上传月份 |
same_text | 字符串 | 用户输入:描述该语音样本是否与文字匹配 |
uploader_id | 整数 | 上传者的用户 ID |
uploader.gender | 字符串 | 用户输入:上传者的性别 |
uploader.birth_year | 浮点数 | 用户输入:上传者的出生年代(精度10年) |
dialect.province | 字符串 | 用户输入:语音样本的省份 |
dialect.city | 字符串 | 用户输入:语音样本的城市 |
dialect.name | 字符串 | 省市结合的短名称 |
dialect.location_json.lat | 浮点数 | 用户输入:语音样本采集地的纬度(精度0.1度) |
dialect.location_json.lng | 浮点数 | 用户输入:语音样本采集地的经度(精度0.1度) |
dialect.is_living | 布尔值 | 用户输入:上传人上传时是否在该地居住 |
dialect.is_hometown | 布尔值 | 用户输入:上传人是否在该地长大 |
sentence.source.type | 字符串 | 语句来源的类型(如:日常用语、诗词) |
sentence.source.name | 字符串 | 语句来源的具体名称(如:《陋室铭》) |
sentence.text | 字符串 | 语音样本对应的文本内容 |
sentence.id | 浮点数 | 语句的 ID |
数据概览
按省级行政区划分的语音数
省级行政区 | 语音数 | 用户数 |
---|---|---|
广东省 | 3001 | 746 |
江苏省 | 1948 | 542 |
湖南省 | 1823 | 530 |
河南省 | 1676 | 543 |
浙江省 | 1612 | 441 |
湖北省 | 1488 | 377 |
四川省 | 1450 | 523 |
福建省 | 1398 | 359 |
山东省 | 1372 | 468 |
江西省 | 1324 | 351 |
安徽省 | 1130 | 350 |
河北省 | 939 | 278 |
陕西省 | 933 | 296 |
山西省 | 727 | 231 |
重庆市 | 660 | 218 |
广西壮族自治区 | 640 | 213 |
贵州省 | 519 | 141 |
辽宁省 | 497 | 174 |
云南省 | 463 | 134 |
上海市 | 439 | 116 |
北京市 | 408 | 124 |
甘肃省 | 360 | 129 |
黑龙江省 | 347 | 138 |
吉林省 | 280 | 93 |
台湾 | 272 | 21 |
内蒙古自治区 | 230 | 73 |
天津市 | 224 | 72 |
台湾省 | 177 | 30 |
香港 | 153 | 45 |
海南省 | 145 | 52 |
新疆维吾尔自治区 | 132 | 47 |
宁夏回族自治区 | 71 | 31 |
青海省 | 50 | 23 |
西藏自治区 | 10 | 7 |
性别
性别 | 语音数 | 用户数 |
---|---|---|
男 | 16608 | 4416 |
女 | 8034 | 2579 |
出生年代
出生年代 | 语音数 | 用户数 |
---|---|---|
1990.0 | 12426 | 3372 |
2000.0 | 8675 | 2554 |
1980.0 | 3672 | 943 |
1970.0 | 719 | 230 |
2010.0 | 668 | 210 |
1910.0 | 225 | 91 |
1960.0 | 195 | 76 |
1940.0 | 114 | 60 |
1950.0 | 114 | 61 |
1930.0 | 111 | 42 |
2020.0 | 92 | 27 |
1920.0 | 72 | 35 |

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
Oxford 102 Flowers
牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布
OpenDataLab 收录