five

汉语现代诗歌语料库|现代诗歌数据集|语料库数据集

收藏
github2024-05-20 更新2024-05-31 收录
现代诗歌
语料库
下载链接:
https://github.com/a996544315/modern-chinese-poetry-corpus
下载链接
链接失效反馈
资源简介:
汉语现代诗歌语料库整理,包含3489位诗人,81.7K首诗歌,共计15.43M字。

The Modern Chinese Poetry Corpus comprises works from 3,489 poets, encompassing 81.7K poems and totaling 15.43 million characters.
创建时间:
2019-04-16
原始信息汇总

汉语现代诗歌语料库概述

数据集基本信息

  • 诗人数量: 3489
  • 诗歌数量: 81.7K
  • 总字数: 15.43M

版权声明

  • 所有作品著作权归原作者所有,不得用于任何商业盈利行为。

数据格式

贡献指南

联系方式

  • 反馈问题可通过 Github
  • 侵删联系:returnzhy1996@outlook.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
汉语现代诗歌语料库的构建,依托于对大量现代汉语诗歌的系统性收集与整理。该数据集通过广泛收录自1917年以来的现代诗歌作品,涵盖了3489位诗人的创作,总计81.7万首诗歌,总字数达到15.43百万。数据集的构建不仅依赖于人工的筛选与校对,还结合了自动化工具进行文本清洗与格式标准化,确保了数据的完整性与一致性。
特点
该数据集的显著特点在于其规模庞大且内容丰富,涵盖了从现代诗歌诞生至今的广泛作品,为研究者提供了丰富的语料资源。此外,数据集的结构化设计使得诗歌的检索与分析变得便捷,支持多种研究需求,如语言学分析、文学研究及自然语言处理等。
使用方法
使用汉语现代诗歌语料库,研究者可以通过提供的在线查阅平台或直接下载数据集进行本地分析。数据集支持多种编程语言(如Java、Python3)进行处理,用户可根据需求编写脚本进行数据提取、清洗及分析。此外,数据集的开放性允许用户根据贡献指南进行扩展与优化,进一步丰富其内容与功能。
背景与挑战
背景概述
汉语现代诗歌语料库是由一群热衷于中文诗歌的研究者和爱好者共同创建的,旨在为诗歌研究、自然语言处理以及文化传承提供丰富的资源。该语料库收录了3489位诗人的作品,总计超过81.7万首诗歌,涵盖了1543万字的内容,极大地丰富了现代汉语诗歌的研究素材。这一数据集的创建不仅为学术界提供了宝贵的研究材料,也为诗歌爱好者和教育工作者提供了丰富的学习资源。通过这一语料库,研究者可以深入探讨现代汉语诗歌的语言特征、文化内涵及其在社会中的作用,从而推动相关领域的研究进展。
当前挑战
汉语现代诗歌语料库在构建过程中面临了多重挑战。首先,诗歌文本的收集与整理是一项复杂的工作,涉及大量的版权问题和文本质量控制。其次,诗歌语言的特殊性,如隐喻、象征等修辞手法,增加了自然语言处理的难度。此外,如何有效地标注和分类这些诗歌,以便于后续的分析和应用,也是一大挑战。最后,随着时间的推移,如何持续更新和维护这一语料库,确保其内容的时效性和完整性,也是需要解决的问题。
常用场景
经典使用场景
汉语现代诗歌语料库作为一个丰富的文本资源,广泛应用于自然语言处理领域,特别是在诗歌生成、情感分析和语言模型训练等方面。研究者可以利用该语料库训练模型,以生成具有诗歌特质的文本,或分析诗歌中的情感倾向和主题分布。此外,该语料库还可用于探索中文诗歌的韵律结构和词汇使用规律,为语言学研究提供宝贵的数据支持。
解决学术问题
该数据集为解决中文诗歌的自动生成、情感分析和语言模型训练等学术问题提供了重要资源。通过分析诗歌的韵律、词汇和情感表达,研究者能够深入理解诗歌的创作规律,进而开发出能够自动生成诗歌的算法。此外,该语料库还为语言学研究提供了丰富的文本数据,有助于揭示中文诗歌的语言特征和结构模式,推动相关领域的学术进展。
衍生相关工作
基于汉语现代诗歌语料库,研究者已开展了多项相关工作,包括诗歌生成模型、情感分析算法和语言模型训练等。例如,有研究利用该语料库训练生成对抗网络(GAN),以生成具有诗歌风格的文本。此外,还有研究通过分析语料库中的情感词汇,开发了诗歌情感分析工具。这些工作不仅丰富了自然语言处理领域的研究内容,也为诗歌创作和文化传播提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。

huggingface 收录