zake7749/chinese-speech-corpus
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zake7749/chinese-speech-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- zh
license: cc
size_categories:
- 1K<n<10K
task_categories:
- conversational
dataset_info:
features:
- name: sentences
list:
- name: speaker
dtype: string
- name: speech
dtype: string
- name: source_url
dtype: string
splits:
- name: train
num_bytes: 77964319
num_examples: 1739
download_size: 43895652
dataset_size: 77964319
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
pretty_name: s
---
# Chinese Speech Corpus
This dataset has been sourced from [SayIt](https://sayit.pdis.nat.gov.tw/), a specialized website focused on preserving transcripts and meeting notes. Presently, it encompasses a compilation of 1739 dialogues, encompassing approximately 340,000 sentences along with their respective speakers.
## License
[CC0 License](https://creativecommons.org/share-your-work/public-domain/cc0/)
语言:
- 中文
许可协议:CC
样本规模类别:
- 1000 < 样本数 < 10000
任务类别:
- 对话式任务
数据集信息:
特征项:
- 名称:sentences(语句列表)
子项:
- 名称:speaker(说话人),数据类型:字符串
- 名称:speech(发言内容),数据类型:字符串
- 名称:source_url(来源链接),数据类型:字符串
数据划分:
- 名称:train(训练集),字节大小:77964319,样本数量:1739
下载大小:43895652字节
数据集总大小:77964319字节
配置项:
- 配置名称:default(默认配置)
数据文件:
- 划分集:train(训练集)
文件路径:data/train-*
显示名称:s
# 中文语音语料库
本数据集源自[SayIt](https://sayit.pdis.nat.gov.tw/),这是一家专注于保存会议纪要与对话转写文本的专业网站。目前,该数据集共收录1739段对话,包含约340000条语句及其对应的说话人信息。
## 许可协议
[CC0协议](https://creativecommons.org/share-your-work/public-domain/cc0/)
提供机构:
zake7749
原始信息汇总
中文对话语料库
数据集概述
- 语言: 中文
- 许可: CC
- 数据规模: 1K<n<10K
- 任务类别: 对话
数据集信息
- 特征:
- 句子:
- 说话者: 字符串类型
- 发言内容: 字符串类型
- 来源URL: 字符串类型
- 句子:
- 分割:
- 训练集:
- 字节数: 77964319
- 样本数: 1739
- 训练集:
- 下载大小: 43895652
- 数据集大小: 77964319
配置
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: data/train-*
- 数据文件:
数据集来源
该数据集来自SayIt,一个专注于保存会议记录和对话的网站。目前包含1739个对话,约340,000个句子及其对应的说话者。
许可
搜集汇总
数据集介绍

构建方式
该数据集源自于SayIt平台,专注于保存会议记录和对话文本。通过系统性地收集和整理,数据集包含了1739段对话,总计约340,000句,每句均标注了相应的说话者信息。数据集的构建过程严谨,确保了文本的高质量和多样性,为研究者提供了丰富的语料资源。
特点
此数据集的显著特点在于其内容的多样性和真实性。对话来源于实际会议记录,涵盖了广泛的主题和情境,使得数据集在自然语言处理和语音识别领域具有极高的应用价值。此外,数据集的标注精细,每句对话都明确标注了说话者,便于进行多方面的分析和研究。
使用方法
该数据集适用于多种自然语言处理任务,如对话系统开发、语音识别模型训练等。使用者可以通过HuggingFace平台直接下载数据集,并根据提供的配置文件进行数据加载和预处理。数据集的结构清晰,便于快速集成到现有的研究框架中,为研究者提供了便捷的数据访问和处理途径。
背景与挑战
背景概述
中文语音语料库(Chinese Speech Corpus)由SayIt网站提供,该网站专注于保存会议记录和对话转录。该数据集于近期创建,主要研究人员或机构未明确提及,但其核心研究问题在于收集和整理中文对话数据,以支持自然语言处理和语音识别领域的研究。该数据集包含1739段对话,约34万句,每句均标注了说话者信息,为中文语音处理提供了丰富的资源。其对相关领域的影响力在于填补了中文语音数据集的空白,促进了中文语音识别技术的发展。
当前挑战
中文语音语料库在构建过程中面临多项挑战。首先,数据来源的多样性和质量控制是一大难题,确保每段对话的准确性和完整性至关重要。其次,标注说话者信息增加了数据处理的复杂性,需要高效的算法和工具来实现。此外,数据集的规模虽适中,但在处理大规模语音数据时,如何保持数据的高效存储和快速检索也是一个技术挑战。最后,数据集的开放性和可访问性需进一步优化,以确保研究者能够充分利用这一资源。
常用场景
经典使用场景
在自然语言处理领域,zake7749/chinese-speech-corpus数据集的经典使用场景主要集中在对话系统的训练与评估。该数据集包含了丰富的对话内容,涵盖了多种语言环境和情境,为研究者提供了宝贵的语料资源。通过利用这些对话数据,研究者可以训练和优化对话模型,提升其在实际应用中的表现,特别是在多轮对话和上下文理解方面。
实际应用
在实际应用中,zake7749/chinese-speech-corpus数据集被广泛用于开发智能客服、语音助手和在线教育平台等对话系统。这些系统依赖于高质量的对话数据来提升用户体验,确保在多样的对话场景中能够提供准确和流畅的交互。此外,该数据集还支持了跨领域的应用,如医疗咨询和法律服务,进一步扩展了其应用范围。
衍生相关工作
基于zake7749/chinese-speech-corpus数据集,研究者们开展了多项经典工作,包括对话生成模型的优化、多轮对话管理系统的开发以及对话情感分析的研究。这些工作不仅提升了对话系统的性能,还为后续研究提供了新的方向和方法。例如,通过分析对话数据中的情感变化,研究者们开发了更加智能和人性化的对话系统,显著提升了用户体验。
以上内容由遇见数据集搜集并总结生成



