five

捷克语通用文本语料库

收藏
国家数据集管理服务平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=7e6c4ce9aa0db6fce01526fca4951dd0
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集面向中欧语言AI研究与开发,提供高质量的捷克语大规模文本数据以支持相关模型建设。包含5.84亿条捷克语文本,覆盖数字出版、在线教育及公共服务等应用领域。 数据规模可支撑训练数亿至十亿参数的捷克语专用语言模型。处理过程中重点关注捷克语复杂的变格系统、长短元音区分及男性有生/无生名词分类,为句法分析和语义推理保留关键语言线索。

This dataset is designed for AI research and development targeting Central European languages, providing high-quality large-scale Czech text data to support the construction of relevant language models. It comprises 584 million Czech text entries, spanning application domains including digital publishing, online education, and public services. The scale of this dataset enables the training of Czech-specific language models with parameters ranging from hundreds of millions to billions. During the data processing, special emphasis is placed on the complex inflectional system of Czech, the distinction between long and short vowels, and the classification of masculine animate and inanimate nouns, so as to retain critical linguistic cues for syntactic parsing and semantic reasoning.
提供机构:
上海库帕思科技有限公司
创建时间:
2026-04-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
本数据集是一个面向中欧语言AI研究与开发的捷克语大规模文本语料库,包含5.84亿条文本,数据规模达641GB,覆盖数字出版、在线教育和公共服务等应用领域。它旨在支持训练数亿至十亿参数的捷克语专用语言模型,并在处理中重点关注捷克语的复杂语言特征,如变格系统和名词分类,以保留句法分析和语义推理的关键线索。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务