A Chinese Character Puzzles Dataset

github2022-04-29 更新2024-05-31 收录

下载链接：

https://github.com/wizare/A-Chinese-Character-Puzzles-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含了解决中文字谜的谜题-答案对，数据来源于Baidu Hanyu和Hydcd，每个字谜都有对应的答案。数据集还包含了每个字的笔画信息，笔画被编码为数字索引，不同数字代表不同笔画。

This dataset comprises puzzle-answer pairs for solving Chinese riddles, sourced from Baidu Hanyu and Hydcd. Each riddle is accompanied by its corresponding answer. Additionally, the dataset includes stroke information for each character, where strokes are encoded as numerical indices, with different numbers representing distinct strokes.

创建时间：

2019-08-05

原始信息汇总

A Chinese Character Puzzles Dataset (CCPD)

Overview

Source: Data collected from Baidu Hanyu and Hydcd.
Purpose: Supports the Stroke Sensitive Character Guessing (SSCG) Model for solving Chinese character puzzles.
Content: Each character puzzle has a corresponding answer.

Statistics

	Train	Valid	Test
Total puzzle-answer pair	9354	500	450
Avg.# characters per puzzle	6.44	5.75	5.86
Avg.# strokes per word	9.30	8.27	8.14
Different characters in puzzle	2662	879	821

Description

Files:
- train/valid/test.csv: Contain Chinese puzzle-answer pairs. Each row includes a puzzle description and its correct answer.
- stroke.csv: Contains word-stroke information, with strokes encoded as number indices.

References

Paper: Solving Chinese Character Puzzles Based on Character Strokes
Authors: Da Ren, Yi Cai, Weizhao Li, Ruihang Xia, Zilu Li, Qing Li
Conference: NLPCC 2019
Publisher: Springer International Publishing
ISBN: 978-3-030-32233-5

搜集汇总

数据集介绍

构建方式

该数据集通过从百度汉语和汉典网等权威中文资源平台收集汉字谜题及其对应答案，构建了一个专门用于汉字谜题解答研究的数据集。每个谜题都配有标准答案，并且从Httpcn网站收集了每个汉字的笔画信息，以数字索引的形式进行编码，确保了数据的完整性和可用性。

特点

该数据集包含了9354个训练样本、500个验证样本和450个测试样本，涵盖了2662个不同的汉字。每个谜题平均包含6.44个字符，每个汉字的平均笔画数为9.30。数据集不仅提供了谜题与答案的对应关系，还包含了详细的笔画信息，为汉字结构研究提供了丰富的素材。

使用方法

数据集以CSV文件格式提供，分为训练集、验证集和测试集。每个文件包含谜题描述与答案的对应关系，而笔画信息则单独存储于stroke.csv文件中。研究人员可通过加载这些文件，利用谜题描述和笔画信息进行模型训练与测试，尤其适用于基于汉字笔画的谜题解答任务。

背景与挑战

背景概述

A Chinese Character Puzzles Dataset (CCPD) 是由Da Ren、Yi Cai等研究人员于2019年提出的一个专注于解决汉字谜题的数据集。该数据集的主要研究目标是基于汉字笔画信息，开发一种能够自动解决汉字谜题的模型。研究人员从百度汉语和Hydcd等平台收集了大量汉字谜题及其对应的答案，并结合Httpcn提供的笔画信息，构建了一个包含9354个训练样本、500个验证样本和450个测试样本的数据集。该数据集的发布为汉字谜题自动解答领域提供了重要的研究基础，推动了自然语言处理与汉字文化研究的结合。

当前挑战

CCPD数据集在构建和应用过程中面临多重挑战。首先，汉字谜题的解答依赖于对汉字结构、笔画顺序及语义的深度理解，这对模型的语义推理能力提出了极高要求。其次，数据集中每个谜题的平均字符数和笔画数较高，且字符多样性显著，这增加了模型训练的复杂性。此外，数据集的构建过程中，研究人员需要从多个来源整合数据，并确保数据的准确性和一致性，这对数据清洗和标注工作提出了较高要求。这些挑战不仅体现在模型的性能优化上，也反映在数据集的扩展与维护中。

常用场景

经典使用场景

在自然语言处理领域，A Chinese Character Puzzles Dataset（CCPD）为研究者提供了一个独特的平台，用于探索汉字谜题的自动解答机制。该数据集通过收集来自百度汉语和Hydcd的汉字谜题及其答案，结合Httpcn的笔画数据，为开发基于笔画的汉字猜测模型提供了丰富的数据支持。

衍生相关工作

CCPD数据集的发布激发了多项相关研究，特别是在汉字识别和自然语言处理领域。基于该数据集，研究者们开发了多种改进模型，如结合深度学习技术的汉字识别系统，以及更高效的汉字谜题解答算法。这些研究不仅扩展了CCPD的应用范围，也进一步提升了汉字处理技术的水平。

数据集最近研究