highquality-chinese-couplet-dataset|对联数据集|古代汉语数据集
收藏高质量中文对联数据集概述
数据集简介
- 数据量:2250条对句。
- 来源:三本经典的古代声韵格律启蒙读物,分别是《声律启蒙》、《笠翁对韵》、《训蒙骈句》。
数据集结构
- 原文:保持原书的分篇,便于订正和勘误。
- 数据集:每个JSON文件对应原书的一篇,便于后续处理,例如将所有的"一东"韵集合并到一起。
- 处理脚本:每本书包含一个处理脚本,用于将原文转换为数据集。示例用法:
python 声律启蒙/process.py
。
数据集使用
- 许可证:MIT License,要求在出版物或衍生作品中注明来源。
背景信息
- 《声律启蒙》:作者车万育,清朝康熙年间人,用于训练儿童应对,掌握声韵格律,按韵分编,涵盖天文、地理、花木、鸟兽、人物、器物等。
- 《笠翁对韵》:作者李渔,仿照《声律启蒙》编写,旨在作诗的韵书,用于儿童音韵启蒙。
- 《训蒙骈句》:作者司守谦,明代,用于训练儿童骈句,为作文作诗建立根基,按韵部顺次,由三言、四言、五言、七言、十一言的五对骈句组成一段,每韵三段。
未来工作
- 扩展数据集,加入其他声韵格律启蒙读物,如《学对歌诀》、《声律发蒙》等。
参考资料
- http://www.360doc.com/content/12/0219/14/1631197_187815759.shtml
- https://hudsonchinese.wordpress.com/wp-content/uploads/2015/02/e5a3b0e99fb5e99b86e68890.pdf

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
MIMII数据集
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
arXiv 收录
TIMIT
TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。
OpenDataLab 收录