Polish-Language-Dataset-List
收藏Polish Language Datasets Collection 数据集概述
数据集简介
本仓库包含一个经过人工整理与验证的元数据集合,收录了面向自然语言处理(NLP)研究的公开波兰语数据集。其核心文件为 Pollish-Language-Dateset-List.csv,旨在解决波兰语NLP数据分散的问题,帮助研究人员快速定位和验证高质量的语言资源。
该资源旨在作为NLP研究人员、语言学家和学生的集中参考,支持高效检索用于核心及特定领域任务的波兰语数据,包括:
- 文本分类与主题建模
- 命名实体识别(通用及医学/法律领域)
- 情感分析与情绪检测
- 机器翻译(波兰语-英语/多语言)
- 问答系统(开放域/封闭域)
- 多模态理解(语音-文本-视频)
- 其他波兰语NLP研究任务
核心元数据字段
Pollish-Language-Dateset-List.csv 中的每个数据集条目都标注了结构化、面向研究的元数据,以确保清晰性、可重复性和可用性:
- 数据集名称: 资源的官方唯一标识符(例如 "Leyzer", "PolEmo2.0")。
- 已验证数据集URL: 主要的下载/访问链接,已手动测试可访问性(最后验证时间:2026年3月);无效链接会被标记并替换为备份链接。
- 来自引用/被引论文的数据集URL: 来自同行评审出版物(如ACL、LREC)或存档版本(如Wayback Machine)的备用链接,用于长期访问。
- 模态: 数据类型,标准化为3类:文本、语音、多模态(例如文本+视频)。
- 任务: 适用的NLP任务(多任务支持时用逗号分隔,例如 "情感分析, 情绪识别")。
- 数据集描述: 详细摘要,包括内容范围(例如 "历史文本"、"医疗记录")、数据规模(词元/样本数)、标注方法(人工/专家)和收集来源。
数据访问
完整的波兰语数据集元数据集合以结构化的CSV文件形式提供,专为学术用途优化:
- 核心文件:
Pollish-Language-Dateset-List.csv
提示:点击上方的 Pollish-Language-Dateset-List.csv 可在GitHub中直接查看完整的可搜索表格。本地使用时,请下载该文件并以 UTF-8编码 打开——这对于保留波兰语特殊字符(ą, ć, ę, ł, ń, ó, ś, ź, ż)并避免乱码至关重要。
数据预览
以下是 Pollish-Language-Dateset-List.csv 中包含的前5个高质量数据集的预览(完整列表请查看CSV文件):
| 数据集名称 | 已验证数据集URL | 来自引用/被引论文的数据集URL | 模态 | 任务 | 数据集描述 |
|---|---|---|---|---|---|
| Leyzer | https://github.com/CLARIN-PL/Leyzer | https://doi.org/10.18778/0867-6356.2021.45 | 文本 | 命名实体识别, 历史文本分析 | 一个波兰语历史文本(16-19世纪)的形态句法标注语料库,侧重于宗教和文学作品。包含超过200万个词元,由专家语言学家进行详细的语言学标注。 |
| KGr10 | https://clarin-pl.eu/dspace/handle/11321/771 | https://doi.org/10.18778/0867-6356.2012.01 | 文本 | 文本分类, 主题建模 | 一个涵盖10个主题类别(如政治、科学、文化)的现代波兰语文本语料库。包含10,000个带有手动主题标签的文档,适合作为文本分类模型的基准。 |
| PSC | https://github.com/ipipan/polish-sentiment-corpus | https://doi.org/10.18653/v1/P19-1483 | 文本 | 情感分析, 情绪分类 | 一个包含5,000条用户生成文本(评论、论坛帖子)的波兰语情感语料库。由波兰母语标注者标注了积极/消极情感以及5种基本情绪(喜悦、悲伤、愤怒、恐惧、惊讶)。 |
| ParCor | https://clarin-pl.eu/dspace/handle/11321/664 | https://doi.org/10.18778/0867-6356.2018.38 | 文本 | 复述检测, 语义相似度 | 一个波兰语复述对数据集,包含3,000个手动标注的句子对,标记为“复述”或“非复述”。用于评估波兰语的语义相似度模型。 |
| PolEmo2.0 | https://github.com/sdadas/polish-nlp-resources#polemo20 | https://doi.org/10.18653/v1/2020.lrec-1.827 | 文本 | 情感分析, 情绪识别 | 一个扩展的波兰语情感和情绪数据集,包含10,000条产品和电影评论。标注包括4种情感类别(积极、消极、中性、混合)和6种情绪标签。 |
重要说明
URL有效性
Pollish-Language-Dateset-List.csv中的所有“已验证数据集URL”每季度更新,以确保可访问性。- 如果已验证链接无效,请检查“来自引用/被引论文的数据集URL”字段以获取替代访问路径(例如存档版本或论文引用的链接)。
编码要求
Pollish-Language-Dateset-List.csv 使用 UTF-8编码——使用其他编码(如ANSI)打开文件将损坏波兰语特殊字符(例如 "ą" 变为 "Ä…")。请始终在Excel、Google Sheets或编程工具(Python/R)中确认使用UTF-8编码。
使用合规性
本仓库提供的是元数据和指向外部数据集的链接(而非原始数据文件)。使用 Pollish-Language-Dateset-List.csv 中的资源时:
- 严格遵守原始数据集作者指定的许可条款(例如,医疗/法律数据的非商业使用限制)。
- 引用原始数据集出版物(“来自引用/被引论文的数据集URL”字段中提供的DOI)以确保学术诚信。
手动验证
Pollish-Language-Dateset-List.csv 中的少量条目(例如,区域限制的方言语料库、存档的历史数据集)可能需要额外的手动验证。有关最新更新,请参考数据集的原始来源或相关学术论文。




