five

乡音汉语方言数据集|汉语方言数据集|语音数据数据集

收藏
github2024-09-30 更新2024-10-01 收录
汉语方言
语音数据
下载链接:
https://github.com/cxcxcxcx/xiangyin_dataset
下载链接
链接失效反馈
资源简介:
乡音方言数据集语音数据来源于乡音 APP 用户上传的语音,包含了2015-2024年9月用户上传的读句子的语音,经过 VAD 处理以减少静音时间,共计约81个小时,7719个用户。数据集包含了投票数、用户性别、出生年代、语音样本的省份和城市等信息,并以 ogg 格式发布。
创建时间:
2024-09-29
原始信息汇总

乡音汉语方言数据集

数据概述

  • 数据来源:乡音 APP(XiangYin.Mobi)用户上传的语音。
  • 数据时间范围:2015-2024年9月。
  • 数据格式:ogg 格式。
  • 采样率:通常为 16kHz 或 44.1kHz。
  • 数据量:约81个小时,7719个用户。
  • 数据协议:CC BY-NC-SA 协议(不可用于商用,衍生品也须使用同协议,转载请保留全部信息和 GitHub 页面链接)。

数据内容

  • 语音样本:包含读句子的语音,未包含看图说话。
  • 投票数:包含语音样本获得的投票数。
  • 用户信息:未包含用户相互验证数据。

数据验证

  • SHA256校验码

    749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b xiangyin_dataset_v1_20240928.tar

数据格式

Metadata.CSV

列名 数据类型 描述
id 整数 语音样本的唯一标识符
sound_length 浮点数 语音样本的时长(秒)
votes 整数 语音样本获得的投票数
full_url 字符串 语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL
date 日期 语音样本上传月份
same_text 字符串 用户输入:描述该语音样本是否与文字匹配
uploader_id 整数 上传者的用户 ID
uploader.gender 字符串 用户输入:上传者的性别
uploader.birth_year 浮点数 用户输入:上传者的出生年代(精度10年)
dialect.province 字符串 用户输入:语音样本的省份
dialect.city 字符串 用户输入:语音样本的城市
dialect.name 字符串 省市结合的短名称
dialect.location_json.lat 浮点数 用户输入:语音样本采集地的纬度(精度0.1度)
dialect.location_json.lng 浮点数 用户输入:语音样本采集地的经度(精度0.1度)
dialect.is_living 布尔值 用户输入:上传人上传时是否在该地居住
dialect.is_hometown 布尔值 用户输入:上传人是否在该地长大
sentence.source.type 字符串 语句来源的类型(如:日常用语、诗词)
sentence.source.name 字符串 语句来源的具体名称(如:《陋室铭》)
sentence.text 字符串 语音样本对应的文本内容
sentence.id 浮点数 语句的 ID

数据概览

按省级行政区划分的语音数

省级行政区 语音数 用户数
广东省 3001 746
江苏省 1948 542
湖南省 1823 530
河南省 1676 543
浙江省 1612 441
湖北省 1488 377
四川省 1450 523
福建省 1398 359
山东省 1372 468
江西省 1324 351
安徽省 1130 350
河北省 939 278
陕西省 933 296
山西省 727 231
重庆市 660 218
广西壮族自治区 640 213
贵州省 519 141
辽宁省 497 174
云南省 463 134
上海市 439 116
北京市 408 124
甘肃省 360 129
黑龙江省 347 138
吉林省 280 93
台湾 272 21
内蒙古自治区 230 73
天津市 224 72
台湾省 177 30
香港 153 45
海南省 145 52
新疆维吾尔自治区 132 47
宁夏回族自治区 71 31
青海省 50 23
西藏自治区 10 7

性别

性别 语音数 用户数
16608 4416
8034 2579

出生年代

出生年代 语音数 用户数
1990.0 12426 3372
2000.0 8675 2554
1980.0 3672 943
1970.0 719 230
2010.0 668 210
1910.0 225 91
1960.0 195 76
1940.0 114 60
1950.0 114 61
1930.0 111 42
2020.0 92 27
1920.0 72 35
AI搜集汇总
数据集介绍
main_image_url
构建方式
乡音汉语方言数据集的构建基于乡音APP用户上传的语音数据,涵盖了2015年至2024年9月间的内容。这些语音数据经过语音活动检测(VAD)处理,以减少静音时间,最终形成约81小时的语音记录,涉及7719名用户。数据集以ogg格式发布,采样率根据用户设备的不同,通常为16kHz或44.1kHz。数据集的构建过程严格遵循CC BY-NC-SA协议,确保非商业用途的合法性,同时要求衍生品也须使用同协议。
使用方法
使用乡音汉语方言数据集时,用户需通过邮件联系数据集维护者,简要说明使用目的以获取数据。数据集以tar格式提供,用户可通过sha256sum验证数据的完整性。数据集的元数据以CSV格式存储,包含语音样本的唯一标识符、时长、投票数、上传者信息等多项内容。用户可根据这些元数据进行筛选和分析,以满足特定的研究或应用需求。
背景与挑战
背景概述
乡音汉语方言数据集是由Xing Chen创建,基于乡音APP用户上传的语音数据,涵盖了2015年至2024年9月间的语音样本。该数据集的核心研究问题在于收集和分析中国各地的方言语音,以促进方言语音识别和语言多样性研究。数据集包含了约81小时的语音数据,涉及7719名用户,覆盖了全国多个省份和城市。这一数据集的创建不仅丰富了方言语音资源的多样性,也为语言学、语音识别技术等领域提供了宝贵的研究材料。
当前挑战
乡音汉语方言数据集在构建过程中面临多项挑战。首先,数据来源依赖于用户自愿上传,这可能导致数据分布不均,某些方言或地区的样本数量较少。其次,语音数据的采样率和格式多样,增加了数据处理的复杂性。此外,数据集中未包含用户相互验证的信息,可能影响数据的真实性和可靠性。最后,数据集的版权协议限制了其商业应用,这可能限制了其在实际应用中的推广和使用。
常用场景
经典使用场景
乡音汉语方言数据集在语言学研究中具有广泛的应用。其经典使用场景之一是方言语音识别模型的训练与评估。通过该数据集,研究者可以构建和优化针对不同方言的语音识别系统,从而提升方言语音识别的准确性和鲁棒性。此外,该数据集还可用于方言语音合成技术的研究,通过分析和模拟不同方言的语音特征,生成自然流畅的方言语音。
解决学术问题
乡音汉语方言数据集解决了汉语方言研究中长期存在的数据稀缺问题。传统上,方言语音数据的收集和整理工作繁琐且耗时,限制了方言语音识别和合成技术的发展。该数据集通过大规模的用户上传语音数据,提供了丰富的方言语音样本,为方言语音学研究提供了宝贵的资源。其意义在于推动了方言语音识别和合成技术的进步,促进了方言保护和传承的学术研究。
实际应用
乡音汉语方言数据集在实际应用中具有广泛的前景。首先,它可以应用于智能语音助手和语音翻译系统中,提升这些系统对方言语音的理解和处理能力。其次,该数据集可用于方言教育和文化传播,通过语音合成技术生成标准方言发音,帮助学习者掌握方言。此外,该数据集还可用于方言保护项目,通过记录和分析方言语音,为方言的传承和保护提供科学依据。
数据集最近研究
最新研究方向
乡音汉语方言数据集在语言学和语音识别领域引起了广泛关注,其最新研究方向主要集中在方言语音的自动识别与分类上。利用深度学习技术,研究者们致力于开发能够准确识别和区分不同方言的模型,这对于保护和传承汉语方言文化具有重要意义。此外,数据集中的地理和人口统计信息也被用于研究方言的地理分布和演变,为方言学研究提供了新的视角和工具。这些研究不仅推动了方言保护的技术进步,也为跨文化交流和语言政策制定提供了科学依据。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录