five

小古诗词

收藏
魔搭社区2025-12-23 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/qiuchen666/XiaoGu-poetry
下载链接
链接失效反馈
官方服务:
资源简介:
# 中文诗词数据集 ## 数据集概述 本数据集收录了 **91,927 首经典中文诗词**,涵盖了从先秦到明清等多个历史时期的作品。每首诗词包含丰富的结构化信息,旨在为自然语言处理(NLP)、文本生成、机器学习等研究与应用提供高质量的中文古诗词资源。 - **诗词总量**:91,927 首 - **数据格式**:JSON Lines(`.jsonl`) - **总数据条数**:290,288 条(含翻译、衍生字段等) - **生成工具**:Python 脚本自动化生成 ## 数据集来源. **公开文献数字化**: - 《全唐诗》 - 《宋词录》 - 《元曲选》 - 其他官方整理的古籍文献 1. 开源社区贡献 - 基于 [Chinese-Poetry](https://github.com/chinese-poetry/chinese-poetry) 等项目二次清洗 ## 数据集格式 ``` {"system":"你是一位精通中国古诗词的专家,擅长诗词背诵、翻译和赏析。","input":"《夏日村居四十二首 其三十九》的作者是谁?","output":"《夏日村居四十二首 其三十九》的作者是于慎行,来自明代。"} ```

# Chinese Classical Poetry Dataset ## Dataset Overview This dataset collects **91,927 classic Chinese poetic works** spanning multiple historical periods from the Pre-Qin Dynasty to the Ming and Qing Dynasties. Each entry contains rich structured information, aiming to provide high-quality classical Chinese poetic resources for research and applications including natural language processing (NLP), text generation, and machine learning. - **Total Number of Poetic Works**: 91,927 - **Data Format**: JSON Lines (`.jsonl`) - **Total Data Entries**: 290,288 (including translations, derived fields, etc.) - **Generation Tool**: Automatically generated using Python scripts ## Dataset Sources ### Publicly Digitized Literature - *Complete Tang Poems*, *Song Ci Anthology* - *Selected Yuan Qu* - Other officially collated ancient Chinese literary works ### Open Source Community Contributions - Secondary cleaning based on projects such as [Chinese-Poetry](https://github.com/chinese-poetry/chinese-poetry) ## Dataset Format json {"system":"You are an expert proficient in classical Chinese poetry, skilled in reciting, translating and appreciating poems.","input":"Who is the author of *Summer Village Dwelling: Forty-Two Poems, No. 39*?","output":"The author of *Summer Village Dwelling: Forty-Two Poems, No. 39* is Yu Shenxing from the Ming Dynasty."}
提供机构:
maas
创建时间:
2025-10-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
小古诗词数据集包含91,927首经典中国诗词,涵盖从先秦到明清的作品,以JSON Lines格式提供,适用于自然语言处理、文本生成等研究和应用。数据集来源于公共文档数字化和开源社区贡献,总数据条目达290,288条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作