five

Geonwoohong/aihub-webcorpus-morph-train-tokenized-ko

收藏
Hugging Face2025-10-21 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/Geonwoohong/aihub-webcorpus-morph-train-tokenized-ko
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过形态分析的韩文网络语料库,基于AIHub韩文网络语料库构建而成,包含原始句子以及分为内容承载的语义 morphemes 和语法风格的风格学 morphemes 两个子集。数据集经过清洗和形态分析,以Apache Arrow shards格式存储,并支持高效的流式传输和加载。

This dataset is a morphologically analyzed Korean web corpus based on the AIHub Korean Web Corpus, containing original sentences and two subsets: content-bearing semantic morphemes and grammatical stylistic morphemes. The dataset has been cleaned and morphologically analyzed, stored in Apache Arrow shards format, and supports efficient streaming and loading.
提供机构:
Geonwoohong
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作