Namuwiki corpus

github2021-06-16 更新2024-05-31 收录

下载链接：

https://github.com/jeongukjae/namuwiki-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个预先按句子分割的Namuwiki语料库，用于在语言模型等中使用。数据集中的链接、图像、表格等已被移除，句子分割使用了kss工具。遵循CC BY-NC-SA 2.0 KR许可证。

A pre-segmented Namuwiki corpus, designed for use in language models and similar applications. Links, images, tables, and other non-textual elements have been removed from the dataset. Sentence segmentation was performed using the kss tool. The dataset is licensed under the CC BY-NC-SA 2.0 KR license.

创建时间：

2021-06-12

原始信息汇总

数据集概述

数据集名称

Namuwiki corpus

数据集描述

该数据集是预先以句子单位分割的Namuwiki语料库，主要用于语言模型（LM）等应用。数据集中的链接、图像、表格等内容已被移除。

数据集处理

分割工具：使用kss进行句子单位分割。
格式：数据集以文本格式存储，包含多个文档，每个文档内含多个句子。

数据集使用

下载方式：可通过Releases直接下载或使用tfds-korean 패키지进行访问。

数据集许可

遵循CC BY-NC-SA 2.0 KR许可协议。

数据集示例

text 나성범 - 플레이 스타일 - 주루 2015 시즌 20-20 클럽에 가입한 경력을 갖고 있는 준족으로, 슬럼프를 겪었던 2016년과 부상으로 일찌감치 시즌을 마감한 2019년을 제외하고는 데뷔 이래 매년 두 자릿수의 도루를 기록했다. 상당한 거구의 사나이지만 팀 동료이자 리그를 대표하는 리드오프인 박민우보다도 순수 주력이 빠르다. 중심타선에 배치되는 타자임에도 어느 타구든지 가리지 않고 1루를 향해 전력질주를 하며, 이러한 플레이 덕분에 내야안타도 많이 생산해낸다. 그리하여 병살타가 될만한 타구도 본인의 발로 어찌어찌 모면하는 경우도 꽤 있다. 주루 센스 역시 좋은 선수이며 적극성 역시 뛰어난 편. 다만 2019 시즌 중반 십자인대가 파열되는 부상을 입으면서 예전처럼 적극적인 주루를 시도하지는 않게 되었다.

나성범 - 플레이 스타일 - 수비 KBO 리그의 대표적인 강견 외야수 중 하나로, 투수로서도 시속 150km/h에 육박하는 공을 던질 수 있을 정도의 강한 어깨를 자랑한다. 지금은 공격력을 살리기 위해 우익수로 전향을 했지만 데뷔 초 2년 간 풀타임으로 중견수를 소화했을 정도의 수비력을 갖춘 선수이다. 나성범의 수비 RAA는 데뷔 시즌부터 꾸준히 플러스를 기록하는 중이며, 덕분에 WAR 등등의 종합 지표에서 굉장한 이득을 보고 있다. 세이버메트릭스로 봐도 프로 데뷔 이후 스탯티즈 기준 통산 WAR이 28.44로 동 시기 전체 야수 중 4위를 기록하고 있다. 그러나 2018년 메이저리그 스카우터 말에 따르면 "어깨가 강한 것은 긍정적이다. 그러나 수비 당시의 풋워크나 전반적인 수비 능력은 좀 더 향상될 필요가 있다”라고 한다. 2019 시즌에는 주전 중견수로 낙점한 김성욱이 시즌 초반부터 크게 부진하면서 5년 만에 중견수 자리로 돌아왔지만 큰 무리없이 좋은 수비를 보여주었다. 2020년에는 부상 여파로 RNG가 1/10로 폭락했고, 사실상 풀타임 지명타자로 출장했다.

搜集汇总

数据集介绍

构建方式

Namuwiki corpus数据集的构建基于Namuwiki平台的内容，经过精心处理以适应语言模型（LM）等应用场景。原始数据中的链接、图片和表格等非文本元素已被移除，以确保数据集的纯净性。此外，数据集采用kss工具进行句子级别的分块处理，使得每条数据均为独立的句子单元，便于后续的自然语言处理任务。

特点

该数据集的特点在于其结构化的文本格式，每个文档及其子标题下的句子均被清晰地分隔，便于用户按需提取和使用。数据集涵盖了广泛的主题，内容来源于Namuwiki的丰富知识库，具有较高的多样性和代表性。此外，数据集的发布遵循CC BY-NC-SA 2.0 KR许可协议，确保了其合法性和开放性。

使用方法

用户可以通过GitHub Releases页面直接下载数据集，或利用tfds-korean包进行加载和使用。数据集以文本文件形式提供，每个文档及其子标题下的句子均按层级结构排列，便于用户进行进一步的处理和分析。对于内存有限的用户，建议使用ijson等流式处理工具，以动态加载和处理数据，避免一次性加载过大文件导致的内存问题。

背景与挑战

背景概述

Namuwiki corpus数据集是一个以句子为单位进行预分割的韩语语料库，源自韩国知名的Namuwiki百科。该数据集的主要目的是为语言模型（LM）等自然语言处理任务提供高质量的文本数据。数据集创建于近年来，由韩国研究人员或机构主导，采用了kss工具进行句子分割。Namuwiki corpus的发布为韩语自然语言处理领域提供了丰富的文本资源，尤其在语言模型训练、文本生成等任务中具有重要影响力。其数据格式清晰，涵盖了多种主题和领域，能够有效支持韩语NLP研究的多样化需求。

当前挑战

Namuwiki corpus数据集在构建和应用过程中面临多重挑战。首先，数据预处理过程中需要处理大量非结构化文本，包括去除链接、图片、表格等无关信息，这对数据清洗的精度和效率提出了较高要求。其次，由于数据集规模庞大（超过8GB），在加载和处理时对计算资源的需求较高，尤其是在内存有限的设备上运行时，可能需要借助动态加载或分布式处理技术。此外，尽管数据集已经过初步分割和整理，但在实际应用中仍可能面临句子分割不准确或数据格式不一致的问题，这需要进一步的后处理或修正。这些挑战为数据集的广泛应用和优化提出了更高的技术要求。

常用场景

经典使用场景

Namuwiki corpus数据集广泛应用于自然语言处理领域，特别是在语言模型（LM）的训练和优化中。由于其以句子为单位进行预分割，且剔除了链接、图片和表格等非文本元素，该数据集为研究者提供了一个纯净的文本环境，便于进行语言模型的训练和评估。

衍生相关工作

基于Namuwiki corpus，研究者们开发了多种韩语处理工具和模型，如tfds-korean包中的韩语数据集处理工具。此外，该数据集还激发了关于韩语语言模型优化和特定领域语言模型（如法律、医疗等）的研究，推动了韩语自然语言处理技术的进步。

数据集最近研究