five

韩语通用文本语料库

收藏
国家数据集管理服务平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=dbea1d972644fe29f5920cf4017d87d0
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集面向韩语大型语言模型的开发与优化,提供规模可观、质量上乘的训练语料。包含3.84亿条韩语文本,覆盖日常对话、书面语及特定领域文档。 研发团队可基于此优化现有韩语模型的语义理解、上下文连贯性及文化适配性。数据分布注重敬语层级、口语-书面语转换及新媒体用语等韩语典型特征,帮助模型减少因训练语料单一导致的表达生硬问题。

This dataset is designed for the development and optimization of Korean large language models (LLMs), providing large-scale and high-quality training corpora. It contains 384 million Korean text entries covering daily conversations, formal written language, and domain-specific documents. Research and development teams can use this dataset to optimize the semantic understanding, context coherence and cultural adaptability of existing Korean LLMs. The dataset's distribution focuses on typical Korean linguistic features such as honorific hierarchies, spoken-written language conversion and new media terminology, helping models reduce the problem of stiff expression caused by single-style training corpora.
提供机构:
上海库帕思科技有限公司
创建时间:
2026-04-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个面向韩语大型语言模型开发与优化的通用文本语料库,包含3.84亿条韩语文本,覆盖日常对话、书面语及特定领域文档。它旨在提升模型的语义理解、上下文连贯性和文化适配性,特别注重敬语层级、口语-书面语转换和新媒体用语等韩语典型特征,以帮助减少表达生硬问题。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务