乡音汉语方言数据集
收藏github2024-09-30 更新2024-10-01 收录
下载链接:
https://github.com/cxcxcxcx/xiangyin_dataset
下载链接
链接失效反馈资源简介:
乡音方言数据集语音数据来源于乡音 APP 用户上传的语音,包含了2015-2024年9月用户上传的读句子的语音,经过 VAD 处理以减少静音时间,共计约81个小时,7719个用户。数据集包含了投票数、用户性别、出生年代、语音样本的省份和城市等信息,并以 ogg 格式发布。
The Xiangyin Dialect Speech Dataset consists of user-uploaded sentence-reading audio sourced from the Xiangyin APP, covering submissions from September 2015 to September 2024. Voice Activity Detection (VAD) processing was applied to minimize silent segments. The dataset totals approximately 81 hours of audio content and includes recordings from 7719 unique users. It provides metadata such as vote counts, user gender, birth cohort, and the province and city associated with each speech sample, and is released in OGG format.
创建时间:
2024-09-29
原始信息汇总
乡音汉语方言数据集
数据概述
- 数据来源:乡音 APP(XiangYin.Mobi)用户上传的语音。
- 数据时间范围:2015-2024年9月。
- 数据格式:ogg 格式。
- 采样率:通常为 16kHz 或 44.1kHz。
- 数据量:约81个小时,7719个用户。
- 数据协议:CC BY-NC-SA 协议(不可用于商用,衍生品也须使用同协议,转载请保留全部信息和 GitHub 页面链接)。
数据内容
- 语音样本:包含读句子的语音,未包含看图说话。
- 投票数:包含语音样本获得的投票数。
- 用户信息:未包含用户相互验证数据。
数据验证
-
SHA256校验码:
749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b xiangyin_dataset_v1_20240928.tar
数据格式
Metadata.CSV
| 列名 | 数据类型 | 描述 |
|---|---|---|
| id | 整数 | 语音样本的唯一标识符 |
| sound_length | 浮点数 | 语音样本的时长(秒) |
| votes | 整数 | 语音样本获得的投票数 |
| full_url | 字符串 | 语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL |
| date | 日期 | 语音样本上传月份 |
| same_text | 字符串 | 用户输入:描述该语音样本是否与文字匹配 |
| uploader_id | 整数 | 上传者的用户 ID |
| uploader.gender | 字符串 | 用户输入:上传者的性别 |
| uploader.birth_year | 浮点数 | 用户输入:上传者的出生年代(精度10年) |
| dialect.province | 字符串 | 用户输入:语音样本的省份 |
| dialect.city | 字符串 | 用户输入:语音样本的城市 |
| dialect.name | 字符串 | 省市结合的短名称 |
| dialect.location_json.lat | 浮点数 | 用户输入:语音样本采集地的纬度(精度0.1度) |
| dialect.location_json.lng | 浮点数 | 用户输入:语音样本采集地的经度(精度0.1度) |
| dialect.is_living | 布尔值 | 用户输入:上传人上传时是否在该地居住 |
| dialect.is_hometown | 布尔值 | 用户输入:上传人是否在该地长大 |
| sentence.source.type | 字符串 | 语句来源的类型(如:日常用语、诗词) |
| sentence.source.name | 字符串 | 语句来源的具体名称(如:《陋室铭》) |
| sentence.text | 字符串 | 语音样本对应的文本内容 |
| sentence.id | 浮点数 | 语句的 ID |
数据概览
按省级行政区划分的语音数
| 省级行政区 | 语音数 | 用户数 |
|---|---|---|
| 广东省 | 3001 | 746 |
| 江苏省 | 1948 | 542 |
| 湖南省 | 1823 | 530 |
| 河南省 | 1676 | 543 |
| 浙江省 | 1612 | 441 |
| 湖北省 | 1488 | 377 |
| 四川省 | 1450 | 523 |
| 福建省 | 1398 | 359 |
| 山东省 | 1372 | 468 |
| 江西省 | 1324 | 351 |
| 安徽省 | 1130 | 350 |
| 河北省 | 939 | 278 |
| 陕西省 | 933 | 296 |
| 山西省 | 727 | 231 |
| 重庆市 | 660 | 218 |
| 广西壮族自治区 | 640 | 213 |
| 贵州省 | 519 | 141 |
| 辽宁省 | 497 | 174 |
| 云南省 | 463 | 134 |
| 上海市 | 439 | 116 |
| 北京市 | 408 | 124 |
| 甘肃省 | 360 | 129 |
| 黑龙江省 | 347 | 138 |
| 吉林省 | 280 | 93 |
| 台湾 | 272 | 21 |
| 内蒙古自治区 | 230 | 73 |
| 天津市 | 224 | 72 |
| 台湾省 | 177 | 30 |
| 香港 | 153 | 45 |
| 海南省 | 145 | 52 |
| 新疆维吾尔自治区 | 132 | 47 |
| 宁夏回族自治区 | 71 | 31 |
| 青海省 | 50 | 23 |
| 西藏自治区 | 10 | 7 |
性别
| 性别 | 语音数 | 用户数 |
|---|---|---|
| 男 | 16608 | 4416 |
| 女 | 8034 | 2579 |
出生年代
| 出生年代 | 语音数 | 用户数 |
|---|---|---|
| 1990.0 | 12426 | 3372 |
| 2000.0 | 8675 | 2554 |
| 1980.0 | 3672 | 943 |
| 1970.0 | 719 | 230 |
| 2010.0 | 668 | 210 |
| 1910.0 | 225 | 91 |
| 1960.0 | 195 | 76 |
| 1940.0 | 114 | 60 |
| 1950.0 | 114 | 61 |
| 1930.0 | 111 | 42 |
| 2020.0 | 92 | 27 |
| 1920.0 | 72 | 35 |
AI搜集汇总
数据集介绍

构建方式
乡音汉语方言数据集的构建基于乡音APP用户上传的语音数据,涵盖了2015年至2024年9月间的内容。这些语音数据经过语音活动检测(VAD)处理,以减少静音时间,最终形成约81小时的语音记录,涉及7719名用户。数据集以ogg格式发布,采样率根据用户设备的不同,通常为16kHz或44.1kHz。数据集的构建过程严格遵循CC BY-NC-SA协议,确保非商业用途的合法性,同时要求衍生品也须使用同协议。
使用方法
使用乡音汉语方言数据集时,用户需通过邮件联系数据集维护者,简要说明使用目的以获取数据。数据集以tar格式提供,用户可通过sha256sum验证数据的完整性。数据集的元数据以CSV格式存储,包含语音样本的唯一标识符、时长、投票数、上传者信息等多项内容。用户可根据这些元数据进行筛选和分析,以满足特定的研究或应用需求。
背景与挑战
背景概述
乡音汉语方言数据集是由Xing Chen创建,基于乡音APP用户上传的语音数据,涵盖了2015年至2024年9月间的语音样本。该数据集的核心研究问题在于收集和分析中国各地的方言语音,以促进方言语音识别和语言多样性研究。数据集包含了约81小时的语音数据,涉及7719名用户,覆盖了全国多个省份和城市。这一数据集的创建不仅丰富了方言语音资源的多样性,也为语言学、语音识别技术等领域提供了宝贵的研究材料。
当前挑战
乡音汉语方言数据集在构建过程中面临多项挑战。首先,数据来源依赖于用户自愿上传,这可能导致数据分布不均,某些方言或地区的样本数量较少。其次,语音数据的采样率和格式多样,增加了数据处理的复杂性。此外,数据集中未包含用户相互验证的信息,可能影响数据的真实性和可靠性。最后,数据集的版权协议限制了其商业应用,这可能限制了其在实际应用中的推广和使用。
常用场景
经典使用场景
乡音汉语方言数据集在语言学研究中具有广泛的应用。其经典使用场景之一是方言语音识别模型的训练与评估。通过该数据集,研究者可以构建和优化针对不同方言的语音识别系统,从而提升方言语音识别的准确性和鲁棒性。此外,该数据集还可用于方言语音合成技术的研究,通过分析和模拟不同方言的语音特征,生成自然流畅的方言语音。
解决学术问题
乡音汉语方言数据集解决了汉语方言研究中长期存在的数据稀缺问题。传统上,方言语音数据的收集和整理工作繁琐且耗时,限制了方言语音识别和合成技术的发展。该数据集通过大规模的用户上传语音数据,提供了丰富的方言语音样本,为方言语音学研究提供了宝贵的资源。其意义在于推动了方言语音识别和合成技术的进步,促进了方言保护和传承的学术研究。
实际应用
乡音汉语方言数据集在实际应用中具有广泛的前景。首先,它可以应用于智能语音助手和语音翻译系统中,提升这些系统对方言语音的理解和处理能力。其次,该数据集可用于方言教育和文化传播,通过语音合成技术生成标准方言发音,帮助学习者掌握方言。此外,该数据集还可用于方言保护项目,通过记录和分析方言语音,为方言的传承和保护提供科学依据。
数据集最近研究
最新研究方向
乡音汉语方言数据集在语言学和语音识别领域引起了广泛关注,其最新研究方向主要集中在方言语音的自动识别与分类上。利用深度学习技术,研究者们致力于开发能够准确识别和区分不同方言的模型,这对于保护和传承汉语方言文化具有重要意义。此外,数据集中的地理和人口统计信息也被用于研究方言的地理分布和演变,为方言学研究提供了新的视角和工具。这些研究不仅推动了方言保护的技术进步,也为跨文化交流和语言政策制定提供了科学依据。
以上内容由AI搜集并总结生成



