A Chinese Character Puzzles Dataset
收藏github2022-04-29 更新2024-05-31 收录
下载链接:
https://github.com/wizare/A-Chinese-Character-Puzzles-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含了解决中文字谜的谜题-答案对,数据来源于Baidu Hanyu和Hydcd,每个字谜都有对应的答案。数据集还包含了每个字的笔画信息,笔画被编码为数字索引,不同数字代表不同笔画。
This dataset comprises puzzle-answer pairs for solving Chinese riddles, sourced from Baidu Hanyu and Hydcd. Each riddle is accompanied by its corresponding answer. Additionally, the dataset includes stroke information for each character, where strokes are encoded as numerical indices, with different numbers representing distinct strokes.
创建时间:
2019-08-05
原始信息汇总
A Chinese Character Puzzles Dataset (CCPD)
Overview
- Source: Data collected from Baidu Hanyu and Hydcd.
- Purpose: Supports the Stroke Sensitive Character Guessing (SSCG) Model for solving Chinese character puzzles.
- Content: Each character puzzle has a corresponding answer.
Statistics
| Train | Valid | Test | |
|---|---|---|---|
| Total puzzle-answer pair | 9354 | 500 | 450 |
| Avg.# characters per puzzle | 6.44 | 5.75 | 5.86 |
| Avg.# strokes per word | 9.30 | 8.27 | 8.14 |
| Different characters in puzzle | 2662 | 879 | 821 |
Description
- Files:
train/valid/test.csv: Contain Chinese puzzle-answer pairs. Each row includes a puzzle description and its correct answer.stroke.csv: Contains word-stroke information, with strokes encoded as number indices.
References
- Paper: Solving Chinese Character Puzzles Based on Character Strokes
- Authors: Da Ren, Yi Cai, Weizhao Li, Ruihang Xia, Zilu Li, Qing Li
- Conference: NLPCC 2019
- Publisher: Springer International Publishing
- ISBN: 978-3-030-32233-5
搜集汇总
数据集介绍

构建方式
该数据集通过从百度汉语和汉典网等权威中文资源平台收集汉字谜题及其对应答案,构建了一个专门用于汉字谜题解答研究的数据集。每个谜题都配有标准答案,并且从Httpcn网站收集了每个汉字的笔画信息,以数字索引的形式进行编码,确保了数据的完整性和可用性。
特点
该数据集包含了9354个训练样本、500个验证样本和450个测试样本,涵盖了2662个不同的汉字。每个谜题平均包含6.44个字符,每个汉字的平均笔画数为9.30。数据集不仅提供了谜题与答案的对应关系,还包含了详细的笔画信息,为汉字结构研究提供了丰富的素材。
使用方法
数据集以CSV文件格式提供,分为训练集、验证集和测试集。每个文件包含谜题描述与答案的对应关系,而笔画信息则单独存储于stroke.csv文件中。研究人员可通过加载这些文件,利用谜题描述和笔画信息进行模型训练与测试,尤其适用于基于汉字笔画的谜题解答任务。
背景与挑战
背景概述
A Chinese Character Puzzles Dataset (CCPD) 是由Da Ren、Yi Cai等研究人员于2019年提出的一个专注于解决汉字谜题的数据集。该数据集的主要研究目标是基于汉字笔画信息,开发一种能够自动解决汉字谜题的模型。研究人员从百度汉语和Hydcd等平台收集了大量汉字谜题及其对应的答案,并结合Httpcn提供的笔画信息,构建了一个包含9354个训练样本、500个验证样本和450个测试样本的数据集。该数据集的发布为汉字谜题自动解答领域提供了重要的研究基础,推动了自然语言处理与汉字文化研究的结合。
当前挑战
CCPD数据集在构建和应用过程中面临多重挑战。首先,汉字谜题的解答依赖于对汉字结构、笔画顺序及语义的深度理解,这对模型的语义推理能力提出了极高要求。其次,数据集中每个谜题的平均字符数和笔画数较高,且字符多样性显著,这增加了模型训练的复杂性。此外,数据集的构建过程中,研究人员需要从多个来源整合数据,并确保数据的准确性和一致性,这对数据清洗和标注工作提出了较高要求。这些挑战不仅体现在模型的性能优化上,也反映在数据集的扩展与维护中。
常用场景
经典使用场景
在自然语言处理领域,A Chinese Character Puzzles Dataset(CCPD)为研究者提供了一个独特的平台,用于探索汉字谜题的自动解答机制。该数据集通过收集来自百度汉语和Hydcd的汉字谜题及其答案,结合Httpcn的笔画数据,为开发基于笔画的汉字猜测模型提供了丰富的数据支持。
衍生相关工作
CCPD数据集的发布激发了多项相关研究,特别是在汉字识别和自然语言处理领域。基于该数据集,研究者们开发了多种改进模型,如结合深度学习技术的汉字识别系统,以及更高效的汉字谜题解答算法。这些研究不仅扩展了CCPD的应用范围,也进一步提升了汉字处理技术的水平。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的不断进步,汉字谜题数据集(CCPD)在智能教育、文化传承及语言理解等领域展现出广泛的应用前景。该数据集通过收集来自百度汉语和Hydcd的汉字谜题及其答案,结合Httpcn的笔画信息,为研究者提供了一个丰富的资源库。当前的研究热点主要集中在基于笔画的汉字猜测模型(SSCG)的优化与应用上,旨在通过深度学习技术提升模型对复杂汉字谜题的解析能力。此外,该数据集还被用于探索汉字结构与其语义之间的关系,为汉字文化的数字化传播提供了新的视角。这些研究不仅推动了汉字处理技术的发展,也为跨文化交流和智能教育系统的设计提供了重要的理论支持和实践指导。
以上内容由遇见数据集搜集并总结生成



