乡音汉语方言数据集

github2024-09-30 更新2024-10-01 收录

汉语方言

语音数据

数据链接：

https://github.com/cxcxcxcx/xiangyin_dataset 数据链接链接失效反馈

官方服务：

资源简介：

乡音方言数据集语音数据来源于乡音 APP 用户上传的语音，包含了2015-2024年9月用户上传的读句子的语音，经过 VAD 处理以减少静音时间，共计约81个小时，7719个用户。数据集包含了投票数、用户性别、出生年代、语音样本的省份和城市等信息，并以 ogg 格式发布。

The Xiangyin Dialect Speech Dataset is sourced from sentence-reading audio uploaded by users of the Xiangyin APP, covering the period from 2015 to September 2024. The audio data has been processed via VAD to reduce silent segments, with a total duration of approximately 81 hours and involving 7719 unique users. The dataset includes metadata such as vote counts, user gender, birth generation, and the province and city associated with each speech sample, and is distributed in OGG format.

创建时间：

2024-09-29

原始信息汇总

乡音汉语方言数据集

数据概述

数据来源：乡音 APP（XiangYin.Mobi）用户上传的语音。
数据时间范围：2015-2024年9月。
数据格式：ogg 格式。
采样率：通常为 16kHz 或 44.1kHz。
数据量：约81个小时，7719个用户。
数据协议：CC BY-NC-SA 协议（不可用于商用，衍生品也须使用同协议，转载请保留全部信息和 GitHub 页面链接）。

数据内容

语音样本：包含读句子的语音，未包含看图说话。
投票数：包含语音样本获得的投票数。
用户信息：未包含用户相互验证数据。

数据验证

SHA256校验码：

749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b xiangyin_dataset_v1_20240928.tar

数据格式

Metadata.CSV

列名	数据类型	描述
id	整数	语音样本的唯一标识符
sound_length	浮点数	语音样本的时长（秒）
votes	整数	语音样本获得的投票数
full_url	字符串	语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL
date	日期	语音样本上传月份
same_text	字符串	用户输入：描述该语音样本是否与文字匹配
uploader_id	整数	上传者的用户 ID
uploader.gender	字符串	用户输入：上传者的性别
uploader.birth_year	浮点数	用户输入：上传者的出生年代（精度10年）
dialect.province	字符串	用户输入：语音样本的省份
dialect.city	字符串	用户输入：语音样本的城市
dialect.name	字符串	省市结合的短名称
dialect.location_json.lat	浮点数	用户输入：语音样本采集地的纬度（精度0.1度)
dialect.location_json.lng	浮点数	用户输入：语音样本采集地的经度（精度0.1度)
dialect.is_living	布尔值	用户输入：上传人上传时是否在该地居住
dialect.is_hometown	布尔值	用户输入：上传人是否在该地长大
sentence.source.type	字符串	语句来源的类型（如：日常用语、诗词）
sentence.source.name	字符串	语句来源的具体名称（如：《陋室铭》）
sentence.text	字符串	语音样本对应的文本内容
sentence.id	浮点数	语句的 ID

数据概览

按省级行政区划分的语音数

省级行政区	语音数	用户数
广东省	3001	746
江苏省	1948	542
湖南省	1823	530
河南省	1676	543
浙江省	1612	441
湖北省	1488	377
四川省	1450	523
福建省	1398	359
山东省	1372	468
江西省	1324	351
安徽省	1130	350
河北省	939	278
陕西省	933	296
山西省	727	231
重庆市	660	218
广西壮族自治区	640	213
贵州省	519	141
辽宁省	497	174
云南省	463	134
上海市	439	116
北京市	408	124
甘肃省	360	129
黑龙江省	347	138
吉林省	280	93
台湾	272	21
内蒙古自治区	230	73
天津市	224	72
台湾省	177	30
香港	153	45
海南省	145	52
新疆维吾尔自治区	132	47
宁夏回族自治区	71	31
青海省	50	23
西藏自治区	10	7

性别

性别	语音数	用户数
男	16608	4416
女	8034	2579

出生年代

出生年代	语音数	用户数
1990.0	12426	3372
2000.0	8675	2554
1980.0	3672	943
1970.0	719	230
2010.0	668	210
1910.0	225	91
1960.0	195	76
1940.0	114	60
1950.0	114	61
1930.0	111	42
2020.0	92	27
1920.0	72	35

搜集汇总

数据集介绍

构建方式

乡音汉语方言数据集的构建基于乡音APP用户上传的语音数据，涵盖了2015年至2024年9月间的内容。这些语音数据经过语音活动检测（VAD）处理，以减少静音时间，最终形成约81小时的语音记录，涉及7719名用户。数据集以ogg格式发布，采样率根据用户设备的不同，通常为16kHz或44.1kHz。数据集的构建过程严格遵循CC BY-NC-SA协议，确保非商业用途的合法性，同时要求衍生品也须使用同协议。

使用方法

使用乡音汉语方言数据集时，用户需通过邮件联系数据集维护者，简要说明使用目的以获取数据。数据集以tar格式提供，用户可通过sha256sum验证数据的完整性。数据集的元数据以CSV格式存储，包含语音样本的唯一标识符、时长、投票数、上传者信息等多项内容。用户可根据这些元数据进行筛选和分析，以满足特定的研究或应用需求。

背景与挑战

背景概述

乡音汉语方言数据集是由Xing Chen创建，基于乡音APP用户上传的语音数据，涵盖了2015年至2024年9月间的语音样本。该数据集的核心研究问题在于收集和分析中国各地的方言语音，以促进方言语音识别和语言多样性研究。数据集包含了约81小时的语音数据，涉及7719名用户，覆盖了全国多个省份和城市。这一数据集的创建不仅丰富了方言语音资源的多样性，也为语言学、语音识别技术等领域提供了宝贵的研究材料。

当前挑战

乡音汉语方言数据集在构建过程中面临多项挑战。首先，数据来源依赖于用户自愿上传，这可能导致数据分布不均，某些方言或地区的样本数量较少。其次，语音数据的采样率和格式多样，增加了数据处理的复杂性。此外，数据集中未包含用户相互验证的信息，可能影响数据的真实性和可靠性。最后，数据集的版权协议限制了其商业应用，这可能限制了其在实际应用中的推广和使用。

常用场景

经典使用场景

乡音汉语方言数据集在语言学研究中具有广泛的应用。其经典使用场景之一是方言语音识别模型的训练与评估。通过该数据集，研究者可以构建和优化针对不同方言的语音识别系统，从而提升方言语音识别的准确性和鲁棒性。此外，该数据集还可用于方言语音合成技术的研究，通过分析和模拟不同方言的语音特征，生成自然流畅的方言语音。

解决学术问题

乡音汉语方言数据集解决了汉语方言研究中长期存在的数据稀缺问题。传统上，方言语音数据的收集和整理工作繁琐且耗时，限制了方言语音识别和合成技术的发展。该数据集通过大规模的用户上传语音数据，提供了丰富的方言语音样本，为方言语音学研究提供了宝贵的资源。其意义在于推动了方言语音识别和合成技术的进步，促进了方言保护和传承的学术研究。

实际应用

乡音汉语方言数据集在实际应用中具有广泛的前景。首先，它可以应用于智能语音助手和语音翻译系统中，提升这些系统对方言语音的理解和处理能力。其次，该数据集可用于方言教育和文化传播，通过语音合成技术生成标准方言发音，帮助学习者掌握方言。此外，该数据集还可用于方言保护项目，通过记录和分析方言语音，为方言的传承和保护提供科学依据。

数据集最近研究