five

세종 말뭉치

收藏
github2024-04-23 更新2024-05-31 收录
下载链接:
https://github.com/coolengineer/sejong-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由韩国国立国语院提供的韩语数据集,包含超过1400个文件,总大小约2GB。该数据集用于语言研究和分析,但不允许修改和重新分发。

This is a Korean language dataset provided by the National Institute of the Korean Language, containing over 1,400 files with a total size of approximately 2GB. The dataset is intended for language research and analysis, but modification and redistribution are not permitted.
创建时间:
2017-05-21
原始信息汇总

数据集概述

数据集名称

  • sejong-corpus

数据集内容

  • 包含超过1400个文件,总大小约2GB。
  • 文件格式主要为XML,包含原文、形态分析、词汇意义分析等多种格式。

数据集处理

  • 原始文件为UTF16格式,通过脚本转换为UTF8格式。
  • 提供自动化脚本进行文件下载、转换和形态分析结果的提取。

数据集使用

  • 需要至少5GB的磁盘空间进行数据集的下载和处理。
  • 使用命令make进行自动下载和格式转换。
  • 使用命令make dic从准备好的语料库中提取形态分析结果并构建词典。

数据集输出

  • logs/list.idx: 记录语言信息共享论坛帖子的索引。
  • html/*: 论坛原文。
  • download/*: 论坛附件文件。
  • corpus/*: 从附件文件中提取的语料库。
  • corpus-utf8/*: 转换为UTF8格式的语料库。
  • corpus-utf8.orig/*: 转换为UTF8格式的原始语料库。
  • logs/download.log: 附件文件下载记录。
  • logs/words.dic: 词汇/词性分析提取的原始文件。
  • logs/words-uniq.dic: 去除重复的词汇/词性分析文件。
  • dictionary/(POS).dic: 按词性分类的词典。

提供的工具

  • 00.prepare.sh: 检查并安装必要的工具或解释器。
  • 10.list.sh: 从语言信息共享论坛网页获取文件列表。
  • 20.schedule.sh: 用于并行下载的调度器。
  • 21.getcontent.sh: 由02.schedule.sh调用的帖子下载器。
  • 22.download.sh: 由03.getcontent.sh调用的附件文件下载器。
  • 30.convert.sh: 查找并转换为UTF8格式的文件。
  • 31.convert-file.sh: 执行实际的UTF16到UTF8转换。
  • 33.patch.sh: 查找并应用相应的补丁文件。
  • 32.convert-xml-tag.py: 处理XML文件中的CDATA区域。
  • 40.extract.sh: 从接收的文件中提取形态分析文件。
  • 41.extract.py: 从文件中提取形态分析部分。
  • 42.jamo-conv.py: 转换形态分析结果中的特定研究结果。
  • 60.build_dic.py: 从合并的形态分析结果中构建词典。
  • 90.diff.sh: 比较原始文件和修正后的文件,生成补丁文件。
搜集汇总
数据集介绍
main_image_url
构建方式
세종 말뭉치 데이터셋은 국립국어원에서 제공하는 대규모 한국어 말뭉치로, 1400개 이상의 파일과 2GB의 데이터로 구성되어 있습니다. 이 데이터셋은 게시판을 통해 수동으로 다운로드하기 어려운 문제를 해결하기 위해 자동화된 스크립트를 통해 구축되었습니다. 스크립트는 게시물 목록을 추출하고, 각 게시물의 첨부파일을 다운로드한 후, UTF-16 형식의 파일을 UTF-8로 변환하는 과정을 포함합니다. 또한, 말뭉치에 포함된 오류를 수정하기 위한 패치 과정도 포함되어 있습니다.
特点
세종 말뭉치 데이터셋의 주요 특징은 대규모 데이터 크기와 다양한 형태의 파일 형식을 포함한다는 점입니다. 이 데이터셋은 한국어 형태소 분석 및 품사 태깅에 중점을 두고 있으며, 형태소 분석 결과와 품사 정보를 추출하여 사전을 구축할 수 있도록 설계되었습니다. 또한, 데이터셋은 오류 수정 및 패치 기능을 제공하여 연구자들이 데이터를 보다 정확하게 활용할 수 있도록 지원합니다.
使用方法
세종 말뭉치 데이터셋을 사용하기 위해서는 먼저 스크립트를 통해 데이터를 다운로드하고 UTF-8 형식으로 변환해야 합니다. 이후, 형태소 분석 결과를 추출하여 사전을 구축하거나, 데이터셋을 직접 수정하여 오류를 보정할 수 있습니다. 데이터셋은 다양한 스크립트와 도구를 제공하여 연구자들이 데이터를 쉽게 처리하고 분석할 수 있도록 지원합니다. 또한, 데이터셋의 라이선스를 준수하여 사용해야 합니다.
背景与挑战
背景概述
세종 말뭉치(Sejong Corpus)是由韩国国立国语院(국립국어원)创建的大型语言数据集,旨在为韩语语言学研究提供丰富的语料资源。该数据集包含了超过1400个文件,总大小约为2GB,涵盖了广泛的韩语语料,包括文本、形态分析和词汇分析等多种形式。其创建时间可追溯至韩国国立国语院的研究项目,主要研究人员和机构致力于通过这一数据集推动韩语语言学的发展。该数据集的核心研究问题涉及韩语的形态分析、词汇分析以及语料的系统化整理,对韩语语言学及相关领域的研究具有重要影响。
当前挑战
세종 말뭉치在构建和使用过程中面临多项挑战。首先,数据集的规模庞大,包含超过1400个文件,总大小为2GB,这使得数据的下载和处理变得复杂。其次,数据集的原始格式为UTF-16,需要转换为UTF-8格式,这一过程涉及大量的文件处理和编码转换。此外,数据集中存在一些细微的错误,但由于其严格的许可证限制,研究者无法对数据进行修改和重新分发,这限制了数据集的进一步优化和改进。最后,数据集的许可证要求用户在下载前同意相关条款,这增加了数据获取的复杂性。
常用场景
经典使用场景
세종 말뭉치 데이터集는 한국어 형태소 분석 및 품사 태깅을 위한 주요 데이터集로 사용됩니다. 이 데이터集는 형태소 분석기의 학습 및 평가, 그리고 한국어 자연어 처리 시스템의 개발에 중요한 역할을 합니다. 특히, 데이터集는 형태소 분석 결과와 품사 태깅 정보를 포함하고 있어, 이를 통해 한국어 텍스트의 구조와 의미를 분석하는 데 활용됩니다.
解决学术问题
세종 말뭉치 데이터集는 한국어 자연어 처리 분야에서 다양한 학술적 문제를 해결하는 데 기여합니다. 특히, 형태소 분석과 품사 태깅의 정확성을 향상시키는 데 중요한 역할을 하며, 이는 한국어 텍스트의 자동 처리와 이해를 위한 기반을 제공합니다. 또한, 이 데이터集는 한국어 언어 모델의 개발과 평가에 필수적인 자원으로 활용되며, 이를 통해 한국어 자연어 처리 기술의 발전에 큰 영향을 미칩니다.
衍生相关工作
세종 말뭉치 데이터集은 다양한 연구 분야에서 활용되며, 이로 인해 많은 관련 연구 및 프로젝트가 파생되었습니다. 특히, 한국어 형태소 분석기와 품사 태깅 시스템의 개발, 그리고 한국어 자연어 처리 모델의 평가 및 개선에 중점을 둔 연구가 활발히 진행되고 있습니다. 또한, 이 데이터集는 한국어 언어 모델의 학습 데이터로 활용되며, 이를 통해 한국어 자연어 처리 기술의 발전에 기여하고 있습니다.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作