oHenri/chinese_xiehouyu
收藏Hugging Face2026-03-19 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/oHenri/chinese_xiehouyu
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: riddle
dtype: string
- name: answer
dtype: string
splits:
- name: train
num_bytes: 598852
num_examples: 14032
download_size: 390908
dataset_size: 598852
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
language:
- zh
---
Dataset Card for Chinese Xiehouyu
## 数据集简介
chinese_xiehouyu 是一个中文歇后语数据集,收录了来自民间的传统歇后语。歇后语是汉语特有的语言形式,由前半句(引子)和后半句(注释/解释)组成,前半句是一个比喻或描述,后半句揭示真正含义,通常利用谐音、双关等修辞手法。
该数据集可用于文本分类、文本生成、阅读理解和填空问答等 NLP 任务。
## 支持的任务
文本生成:给定前半句,生成后半句
文本分类:按修辞手法(谐音、比喻、双关)或主题分类
填空/完形填空:给定歇后语的一部分,补全另一部分
文化知识问答:理解和解释歇后语的含义
## 语言
数据集文本为中文(zh-CN)。
## 数据结构
### JSON 格式示例:
{
"riddle": "竹篮打水",
"answer": "一场空"
}
### 字段说明:
- riddle(string):歇后语的前半句,通常是比喻或场景描述
- answer(string):歇后语的后半句,揭示含义。多个答案用分号(;)分隔
## 使用方式
'''
from datasets import load_dataset
ds = load_dataset("YourName/chinese_xiehouyu")
查看一条歇后语
print(ds["train"][0])
{'riddle': '竹篮打水', 'answer': '一场空'}
'''
## 许可证
本数据集以 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。歇后语属于中华民间文化遗产。
---
以上均为 AI 生成,内容源自 GitHub 的 pwxcoo 项目(https://github.com/pwxcoo/chinese-xinhua/blob/master/README.md)。
提供机构:
oHenri



