세종 말뭉치

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/coolengineer/sejong-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由韩国国立国语院提供的韩语数据集，包含超过1400个文件，总大小约2GB。该数据集用于语言研究和分析，但不允许修改和重新分发。

This is a Korean language dataset provided by the National Institute of the Korean Language, containing over 1,400 files with a total size of approximately 2GB. The dataset is intended for language research and analysis, but modification and redistribution are not permitted.

创建时间：

2017-05-21

原始信息汇总

数据集概述

数据集名称

sejong-corpus

数据集内容

包含超过1400个文件，总大小约2GB。
文件格式主要为XML，包含原文、形态分析、词汇意义分析等多种格式。

数据集处理

原始文件为UTF16格式，通过脚本转换为UTF8格式。
提供自动化脚本进行文件下载、转换和形态分析结果的提取。

数据集使用

需要至少5GB的磁盘空间进行数据集的下载和处理。
使用命令make进行自动下载和格式转换。
使用命令make dic从准备好的语料库中提取形态分析结果并构建词典。

数据集输出

logs/list.idx: 记录语言信息共享论坛帖子的索引。
html/*: 论坛原文。
download/*: 论坛附件文件。
corpus/*: 从附件文件中提取的语料库。
corpus-utf8/*: 转换为UTF8格式的语料库。
corpus-utf8.orig/*: 转换为UTF8格式的原始语料库。
logs/download.log: 附件文件下载记录。
logs/words.dic: 词汇/词性分析提取的原始文件。
logs/words-uniq.dic: 去除重复的词汇/词性分析文件。
dictionary/(POS).dic: 按词性分类的词典。

提供的工具

00.prepare.sh: 检查并安装必要的工具或解释器。
10.list.sh: 从语言信息共享论坛网页获取文件列表。
20.schedule.sh: 用于并行下载的调度器。
21.getcontent.sh: 由02.schedule.sh调用的帖子下载器。
22.download.sh: 由03.getcontent.sh调用的附件文件下载器。
30.convert.sh: 查找并转换为UTF8格式的文件。
31.convert-file.sh: 执行实际的UTF16到UTF8转换。
33.patch.sh: 查找并应用相应的补丁文件。
32.convert-xml-tag.py: 处理XML文件中的CDATA区域。
40.extract.sh: 从接收的文件中提取形态分析文件。
41.extract.py: 从文件中提取形态分析部分。
42.jamo-conv.py: 转换形态分析结果中的特定研究结果。
60.build_dic.py: 从合并的形态分析结果中构建词典。
90.diff.sh: 比较原始文件和修正后的文件，生成补丁文件。

搜集汇总

数据集介绍

构建方式

세종 말뭉치 데이터셋은 국립국어원에서 제공하는 대규모 한국어 말뭉치로, 1400개 이상의 파일과 2GB의 데이터로 구성되어 있습니다. 이 데이터셋은 게시판을 통해 수동으로 다운로드하기 어려운 문제를 해결하기 위해 자동화된 스크립트를 통해 구축되었습니다. 스크립트는 게시물 목록을 추출하고, 각 게시물의 첨부파일을 다운로드한 후, UTF-16 형식의 파일을 UTF-8로 변환하는 과정을 포함합니다. 또한, 말뭉치에 포함된 오류를 수정하기 위한 패치 과정도 포함되어 있습니다.

特点

세종 말뭉치 데이터셋의 주요 특징은 대규모 데이터 크기와 다양한 형태의 파일 형식을 포함한다는 점입니다. 이 데이터셋은 한국어 형태소 분석 및 품사 태깅에 중점을 두고 있으며, 형태소 분석 결과와 품사 정보를 추출하여 사전을 구축할 수 있도록 설계되었습니다. 또한, 데이터셋은 오류 수정 및 패치 기능을 제공하여 연구자들이 데이터를 보다 정확하게 활용할 수 있도록 지원합니다.

使用方法

세종 말뭉치 데이터셋을 사용하기 위해서는 먼저 스크립트를 통해 데이터를 다운로드하고 UTF-8 형식으로 변환해야 합니다. 이후, 형태소 분석 결과를 추출하여 사전을 구축하거나, 데이터셋을 직접 수정하여 오류를 보정할 수 있습니다. 데이터셋은 다양한 스크립트와 도구를 제공하여 연구자들이 데이터를 쉽게 처리하고 분석할 수 있도록 지원합니다. 또한, 데이터셋의 라이선스를 준수하여 사용해야 합니다.

背景与挑战

背景概述

세종 말뭉치（Sejong Corpus）是由韩国国立国语院（국립국어원）创建的大型语言数据集，旨在为韩语语言学研究提供丰富的语料资源。该数据集包含了超过1400个文件，总大小约为2GB，涵盖了广泛的韩语语料，包括文本、形态分析和词汇分析等多种形式。其创建时间可追溯至韩国国立国语院的研究项目，主要研究人员和机构致力于通过这一数据集推动韩语语言学的发展。该数据集的核心研究问题涉及韩语的形态分析、词汇分析以及语料的系统化整理，对韩语语言学及相关领域的研究具有重要影响。

当前挑战

세종 말뭉치在构建和使用过程中面临多项挑战。首先，数据集的规模庞大，包含超过1400个文件，总大小为2GB，这使得数据的下载和处理变得复杂。其次，数据集的原始格式为UTF-16，需要转换为UTF-8格式，这一过程涉及大量的文件处理和编码转换。此外，数据集中存在一些细微的错误，但由于其严格的许可证限制，研究者无法对数据进行修改和重新分发，这限制了数据集的进一步优化和改进。最后，数据集的许可证要求用户在下载前同意相关条款，这增加了数据获取的复杂性。

常用场景

经典使用场景

세종 말뭉치 데이터集는 한국어 형태소 분석 및 품사 태깅을 위한 주요 데이터集로 사용됩니다. 이 데이터集는 형태소 분석기의 학습 및 평가, 그리고 한국어 자연어 처리 시스템의 개발에 중요한 역할을 합니다. 특히, 데이터集는 형태소 분석 결과와 품사 태깅 정보를 포함하고 있어, 이를 통해 한국어 텍스트의 구조와 의미를 분석하는 데 활용됩니다.

解决学术问题

세종 말뭉치 데이터集는 한국어 자연어 처리 분야에서 다양한 학술적 문제를 해결하는 데 기여합니다. 특히, 형태소 분석과 품사 태깅의 정확성을 향상시키는 데 중요한 역할을 하며, 이는 한국어 텍스트의 자동 처리와 이해를 위한 기반을 제공합니다. 또한, 이 데이터集는 한국어 언어 모델의 개발과 평가에 필수적인 자원으로 활용되며, 이를 통해 한국어 자연어 처리 기술의 발전에 큰 영향을 미칩니다.

衍生相关工作

세종 말뭉치 데이터集은 다양한 연구 분야에서 활용되며, 이로 인해 많은 관련 연구 및 프로젝트가 파생되었습니다. 특히, 한국어 형태소 분석기와 품사 태깅 시스템의 개발, 그리고 한국어 자연어 처리 모델의 평가 및 개선에 중점을 둔 연구가 활발히 진행되고 있습니다. 또한, 이 데이터集는 한국어 언어 모델의 학습 데이터로 활용되며, 이를 통해 한국어 자연어 처리 기술의 발전에 기여하고 있습니다.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集