five

汉语现代诗歌语料库|现代诗歌数据集|语料库数据集

收藏
github2024-05-20 更新2024-05-31 收录
现代诗歌
语料库
下载链接:
https://github.com/a996544315/modern-chinese-poetry-corpus
下载链接
链接失效反馈
资源简介:
汉语现代诗歌语料库整理,包含3489位诗人,81.7K首诗歌,共计15.43M字。

The Modern Chinese Poetry Corpus comprises works from 3,489 poets, encompassing 81.7K poems and totaling 15.43 million characters.
创建时间:
2019-04-16
原始信息汇总

汉语现代诗歌语料库概述

数据集基本信息

  • 诗人数量: 3489
  • 诗歌数量: 81.7K
  • 总字数: 15.43M

版权声明

  • 所有作品著作权归原作者所有,不得用于任何商业盈利行为。

数据格式

贡献指南

联系方式

  • 反馈问题可通过 Github
  • 侵删联系:returnzhy1996@outlook.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
汉语现代诗歌语料库的构建,依托于对大量现代汉语诗歌的系统性收集与整理。该数据集通过广泛收录自1917年以来的现代诗歌作品,涵盖了3489位诗人的创作,总计81.7万首诗歌,总字数达到15.43百万。数据集的构建不仅依赖于人工的筛选与校对,还结合了自动化工具进行文本清洗与格式标准化,确保了数据的完整性与一致性。
特点
该数据集的显著特点在于其规模庞大且内容丰富,涵盖了从现代诗歌诞生至今的广泛作品,为研究者提供了丰富的语料资源。此外,数据集的结构化设计使得诗歌的检索与分析变得便捷,支持多种研究需求,如语言学分析、文学研究及自然语言处理等。
使用方法
使用汉语现代诗歌语料库,研究者可以通过提供的在线查阅平台或直接下载数据集进行本地分析。数据集支持多种编程语言(如Java、Python3)进行处理,用户可根据需求编写脚本进行数据提取、清洗及分析。此外,数据集的开放性允许用户根据贡献指南进行扩展与优化,进一步丰富其内容与功能。
背景与挑战
背景概述
汉语现代诗歌语料库是由一群热衷于中文诗歌的研究者和爱好者共同创建的,旨在为诗歌研究、自然语言处理以及文化传承提供丰富的资源。该语料库收录了3489位诗人的作品,总计超过81.7万首诗歌,涵盖了1543万字的内容,极大地丰富了现代汉语诗歌的研究素材。这一数据集的创建不仅为学术界提供了宝贵的研究材料,也为诗歌爱好者和教育工作者提供了丰富的学习资源。通过这一语料库,研究者可以深入探讨现代汉语诗歌的语言特征、文化内涵及其在社会中的作用,从而推动相关领域的研究进展。
当前挑战
汉语现代诗歌语料库在构建过程中面临了多重挑战。首先,诗歌文本的收集与整理是一项复杂的工作,涉及大量的版权问题和文本质量控制。其次,诗歌语言的特殊性,如隐喻、象征等修辞手法,增加了自然语言处理的难度。此外,如何有效地标注和分类这些诗歌,以便于后续的分析和应用,也是一大挑战。最后,随着时间的推移,如何持续更新和维护这一语料库,确保其内容的时效性和完整性,也是需要解决的问题。
常用场景
经典使用场景
汉语现代诗歌语料库作为一个丰富的文本资源,广泛应用于自然语言处理领域,特别是在诗歌生成、情感分析和语言模型训练等方面。研究者可以利用该语料库训练模型,以生成具有诗歌特质的文本,或分析诗歌中的情感倾向和主题分布。此外,该语料库还可用于探索中文诗歌的韵律结构和词汇使用规律,为语言学研究提供宝贵的数据支持。
解决学术问题
该数据集为解决中文诗歌的自动生成、情感分析和语言模型训练等学术问题提供了重要资源。通过分析诗歌的韵律、词汇和情感表达,研究者能够深入理解诗歌的创作规律,进而开发出能够自动生成诗歌的算法。此外,该语料库还为语言学研究提供了丰富的文本数据,有助于揭示中文诗歌的语言特征和结构模式,推动相关领域的学术进展。
衍生相关工作
基于汉语现代诗歌语料库,研究者已开展了多项相关工作,包括诗歌生成模型、情感分析算法和语言模型训练等。例如,有研究利用该语料库训练生成对抗网络(GAN),以生成具有诗歌风格的文本。此外,还有研究通过分析语料库中的情感词汇,开发了诗歌情感分析工具。这些工作不仅丰富了自然语言处理领域的研究内容,也为诗歌创作和文化传播提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录