세종 말뭉치

github2024-03-09 更新2024-05-31 收录

下载链接：

https://github.com/lovit/sejong_corpus_cleaner

下载链接

链接失效反馈

官方服务：

资源简介：

세종 말뭉치是由韩国国立国语院发布的语言数据集，包含口语和书面语材料。该仓库提供工具用于从原始数据中提取和清理数据，以便用于语言学研究和机器学习模型训练。

The Sejong Corpus is a linguistic dataset released by the National Institute of the Korean Language, encompassing both spoken and written materials. This repository provides tools for extracting and cleaning data from the original sources, facilitating its use in linguistic research and the training of machine learning models.

创建时间：

2018-10-08

原始信息汇总

数据集概述

数据集名称

세종 말뭉치 정제를 위한 utils

数据集来源

数据集由국립국어원提供，主要用于从原始的세종 말뭉치中提取用于学习的部分。

数据集内容

原始数据：包含479个文件，总计1,021,527个句子。
数据类型：分为구어 말뭉치（200个文件）和문어 말뭉치（279个文件）。
处理后数据：存储于data/clean目录下，是经过清理的세종 말뭉치。

数据集结构

sejong_corpus_cleaner
- data
  - raw
    - colloquial
      - 5CT_0013.txt
      - ...
    - written
      - BTAA0001.txt
      - ...
  - clean
- scripts
- README.md

数据处理工具

build_corpus.py：用于从原始数据中提取并清理数据，生成处理后的文本。
make_counter.py：用于计算(어절, 형태소열)对或单个형태소的频率。

数据处理方法

使用build_corpus.py进行数据清理，支持多种数据类型转换，如sejong, type1, type2, type3。
使用make_counter.py生成频率表，支持仅计算형태소频率的选项。

数据集使用示例

清理数据： bash cd scripts python build_corpus.py --corpus_type sejong
生成频率表： bash python build_counter.py --corpus_type type1

数据集错误率

原始数据到句子格式的转换错误率为3.16%。
不同类型转换后的错误率在0.210%至0.264%之间。

数据集依赖

beautifulsoup4 >= 4.6.0
pandas >= 0.23.4
lxml >= 3.7.0

搜集汇总

数据集介绍

构建方式

세종 말뭉치 데이터셋은 국립국어원에서 배포한 원본 데이터를 기반으로 구축되었으며, 학습에 필요한 부분만을 추출하기 위해 특수한 유틸리티를 활용하여 정제되었다. 원본 데이터는 재배포가 제한되어 있기 때문에, 필요한 정보를 추출하는 함수를 작성하여 구어체와 문어체 파일을 분류하고, 각 파일에서 (어절, 형태소열) 단위로 데이터를 정제하였다. 이를 통해 원본 데이터의 메타 정보와 오류를 제거한 정제된 말뭉치를 생성하였다.

使用方法

세종 말뭉치 데이터셋은 `build_corpus.py` 스크립트를 통해 정제된 말뭉치를 생성할 수 있으며, `corpus_type` 옵션을 통해 다양한 형식의 말뭉치를 생성할 수 있다. 또한, `build_counter.py` 스크립트를 활용하여 (어절, 형태소열) 빈도수를 계산하거나 형태소 빈도수만을 계산할 수 있다. 데이터셋은 `Sentences` 클래스를 통해 로딩 및 처리할 수 있으며, `write_sentences` 함수를 사용하여 정제된 데이터를 파일로 저장할 수 있다. 이를 통해 한국어 자연어 처리 모델의 학습 및 평가에 활용할 수 있다.

背景与挑战

背景概述

세종 말뭉치（Sejong Corpus）是由韩国国立国语院（National Institute of the Korean Language）发布的一个大规模韩语语料库，旨在为韩语的自然语言处理研究提供丰富的语言数据资源。该语料库包含了书面语和口语两种类型的文本，涵盖了广泛的韩语使用场景。세종 말뭉치的创建时间可追溯至21世纪初，其核心研究问题在于如何通过大规模语料库的构建，推动韩语的语言学研究、机器翻译、语音识别等领域的发展。该数据集对韩语的自然语言处理研究产生了深远影响，成为许多韩语相关算法和模型的基础数据源。

当前挑战

세종 말뭉치在构建和应用过程中面临多重挑战。首先，语料库的原始数据包含大量元信息和错误，如未标注的形态素、格式不一致等问题，这增加了数据清洗和预处理的难度。其次，韩语的形态学复杂性使得形态素分析和标注成为一项极具挑战的任务，尤其是在处理复合形态素时，如何准确划分和标注形态素成为关键问题。此外，语料库的再分发受到严格限制，研究者需要从原始数据中提取所需信息，这进一步增加了数据处理的复杂性。最后，如何在保持语料库多样性的同时，确保数据的质量和一致性，也是构建过程中需要解决的重要问题。

常用场景

经典使用场景

세종 말뭉치는 한국어 자연어 처리 연구에서 널리 사용되는 데이터셋으로, 특히 형태소 분석 및 구문 분석과 같은 언어학적 연구에 활용된다. 이 데이터셋은 구어체와 문어체로 구성되어 있으며, 다양한 문맥에서의 언어 사용 패턴을 분석하는 데 유용하다. 연구자들은 이를 통해 한국어의 구조적 특성을 심층적으로 이해하고, 이를 기반으로 한 자연어 처리 모델을 개발한다.

解决学术问题

세종 말뭉치는 한국어의 형태소와 품사 체계를 정확히 분석하는 데 중요한 역할을 한다. 이 데이터셋은 한국어의 복잡한 형태소 구조를 해석하고, 이를 통해 언어 모델의 정확성을 높이는 데 기여한다. 또한, 구어체와 문어체의 차이를 분석하여 언어의 변이성을 연구하는 데도 활용된다. 이를 통해 한국어의 언어학적 특성을 더 깊이 이해할 수 있다.

实际应用

세종 말뭉치는 실제 응용 프로그램에서도 널리 사용된다. 예를 들어, 한국어 기계 번역 시스템, 음성 인식 시스템, 그리고 텍스트 요약 도구 등 다양한 자연어 처리 애플리케이션의 개발에 이 데이터셋이 활용된다. 이를 통해 사용자에게 더 정확하고 자연스러운 한국어 처리 서비스를 제공할 수 있다.

数据集最近研究