five

heegyu/namuwiki

收藏
Hugging Face2022-10-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/heegyu/namuwiki
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为namu.wiki数据库转储,是一个包含867024行数据的韩国语单语数据集,总下载大小为3GB。数据集内容主要来自namu.wiki网站的2022年3月1日的数据库转储。该数据集适用于其他类型的任务,并且遵循CC-BY-NC-SA-2.0许可证。

This dataset is named namu.wiki Database Dump. It is a Korean monolingual dataset containing 867,024 rows, with a total download size of 3 GB. The content of this dataset is primarily sourced from the database dump of the namu.wiki website as of March 1, 2022. This dataset is suitable for various other types of tasks and is licensed under CC-BY-NC-SA-2.0.
提供机构:
heegyu
原始信息汇总

数据集概述

基本信息

  • 名称: namu.wiki database dump
  • 日期: 2022/03/01
  • 数据量: 867024 rows
  • 下载大小: 3GB

元数据

  • 许可证: cc-by-nc-sa-2.0
  • 语言: 韩语(ko)
  • 多语言性: 单语种
  • 大小类别: 100K<n<1M
  • 任务类别: 其他

使用示例

python from datasets import load_dataset

dataset = load_dataset("heegyu/namuwiki")

print(dataset["train"][0])

数据集内容示例

json { "title": "!!아앗!!", "text": " [목차]

{{{+1 !!ああっと!!}}}\n == 개요 == [[파일:3444050440.jpg|width=60%]] ▲[[신 세계수의 미궁 2 파프니르기사|신 세계수의 미궁 2]]에서 뜬 !!아앗!!

[[세계수의 미궁 시리즈]]에 전통으로 등장하는 대사. [[세계수의 미궁 2 제왕의 성배|2편]]부터 등장했으며 훌륭한 [[사망 플래그]]의 예시이다.

세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에서 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정되어 있기 때문에 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다.[* 다만 채집 시스템은 신 세계수 시리즈의 그리모어 복제, 복합 채집 스킬인 야생의 감, 5편의 종족 특유 스킬, 크로스의 1레벨이 만렙인 채집 스킬 등으로 편의성이 점차 나아져서 채집 스킬 때문에 스킬 트리가 내려가는 일은 점점 줄어들었다.] !!아앗!!이 발생하는 과정을 요약하면 다음과 같다.

  1. 채집용 캐릭터들로 이루어진 약한 파티(ex: [[레인저(세계수의 미궁 2)|레인저]] 5명)가 수해에 입장한다.
  2. 필드 전투를 피해 채집 포인트에 도착한 후 열심히 아이템을 캐는 중에...
  3. !!아앗!!\ 라플레시아가 나타났다! 이때 등장하는 것은 [[FOE(세계수의 미궁 시리즈)|FOE]]는 아니지만 \훨씬 위층에 등장하는 강력한 필드 몬스터이며 선제 공격을 당하게 된다!\n 1. \으앙 죽음(hage)

여담으로 !!아앗!!의 유래는 1인칭 던전 크롤러의 원조 [[위저드리]]에서 함정을 건드렸을 때 나오는 대사 Oops!(おおっと!)라고 한다.

== 각 작품에서의 모습 == === [[세계수의 미궁 2 제왕의 성배]] === !!아앗!!의 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었다. 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 \강제로\ 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 위험 감지(중간 확률로 적의 선제 공격을 무효화)는 정작 작동하지 않는다!

참고로 2편에서 채집 도중 !!아앗!!이 뜰 확률은 [[http://www.atlusnet.jp/topic/detail/910|고작 1%다.]] [[던파확률의 법칙|낮아 보이는 확률이어도 플레이 중 한 번이라도 일어나는 것]]을 경험하는 체감 확률을 고려하여 확률을 설정한다고.

=== [[세계수의 미궁 3 성해의 내방자]] === 다행히 채집 중 낮은 확률로 "좋은 아이템을 얻을 수 있을 것 같지만... 주변에서 몬스터들의 기척이 느껴진다."는 메시지가 뜨고 이때 운이 좋으면 레어 아이템을 얻을 수 있지만 반대의 경우 적과 싸우게 되는 것으로 조정되었다.

=== [[세계수의 미궁 4 전승의 거신]] === 기본적인 것은 3편과 같지만, 4편에서는 움직이지 않고 채집할 때도 턴이 경과하도록 조정되었기 때문에 주변에 있는 FOE를 잊고 채집에 몰두하다가 FOE와 부딪히면 FOE 버전 !!아앗!!이 뜬다. 그리고 난이도 CASUAL로 플레이시, FOE로 인한 !!아앗!!을 제외하면 절대로 발생하지 않는다.

=== [[신 세계수의 미궁 밀레니엄의 소녀|신 세계수의]] [[신 세계수의 미궁 2 파프니르기사|미궁 시리즈]] === 채집 방식이 한 턴으로 끝나는 구조[* 채집으로 한 번 아이템을 획득하면 "다시, (채집 스킬)에 의해..."가 뜨면서 한꺼번에 획득되는 구조.]로 바뀐 덕분인지 강제 조우로 다시 회귀해버렸다(...). 그나마 위험 감지 먹통과 같은 버그성 난점들은 수정되었다. 그 이후에 나온 [[세계수의 미궁 5 오랜 신화의 끝]]과 시리즈의 집대성 작품이자 3DS 마지막 작품인 [[세계수의 미궁 X]]도 마찬가지.

=== [[세계수의 미궁 X]] === 본작의 채집은 신 세계수 시리즈와 같은 매커니즘이라 굳이 언급할 필요는 없으나, 퀘스트중에 2편의 !!아앗!! 시퀀스를 재현하면서 \라플레시아\가 등장하는 퀘스트가 존재한다.(...) 깨알같이 시스템 메세지 창이 아니라 대화창을 이용해서 완벽 재현한 것이 포인트.

=== [[페르소나 Q 섀도우 오브 더 래버린스]] === 세계수 시스템을 기반으로 한 [[페르소나 시리즈]]와의 콜라보 작품인 페르소나 Q에서도 등장한다. 3, 4편과 같이 파워 스폿에서 채집 도중 메시지가 뜨며, 실패하면 파티에 참가하고 있는 멤버 중 한 명의 [[http://nico.ms/sm25683358|!!아앗!! 하는 음성]] ~~또는 [[코로마루|개소리]]~~과 함께 그 던전의 강적인 거대 [[섀도(페르소나 시리즈)|섀도우]]가 나타난다.

그러나 내비 전용 스킬인 뱀눈 노려보기(위험 감지와 같은 효과)와 채집 보조 스킬은 파티의 전투력에 전혀 지장을 주지 않으며, 대안심을 달면 거의 볼 일이 없어져서 초중반 이후에는 존재감이 급격히 줄어든다. [[분류:세계수의 미궁 시리즈]]", "contributors": "110.46.34.123,kirby10,max0243,218.54.117.149,ruby3141,121.165.63.239,iviyuki,1.229.200.194,anatra95,kiri47,175.1

搜集汇总
数据集介绍
main_image_url
构建方式
在知识共享与协作编辑日益普及的背景下,namu.wiki数据库转储数据集应运而生。该数据集源自韩国知名的协作式维基平台namu.wiki,通过技术手段对平台在2022年3月1日的全站内容进行了系统性的抓取与转储,共收录了超过86万条条目,数据规模达到3GB。其构建过程严格遵循了平台自身的公开数据导出规范,确保了原始内容的结构与完整性得以保留,为大规模韩语文本分析提供了高质量的语料来源。
特点
作为韩语网络百科全书的重要语料库,该数据集展现了鲜明的领域特征。其内容覆盖了游戏、动漫、流行文化等多元主题,条目结构严谨,通常包含概述、详细说明、分类标签及贡献者信息,文本中融合了丰富的格式化标记与内部链接。数据集采用CC BY-NC-SA 2.0许可协议,强调了非商业性共享与相同方式分享的原则。其单语性(韩语)与中等规模(10万至100万条记录)使其特别适合于训练韩语语言模型或进行特定文化领域的语义分析。
使用方法
为便利学术研究与开发应用,该数据集已集成于Hugging Face Datasets库。使用者需先行安装datasets库,随后通过load_dataset函数并指定数据集路径“heegyu/namuwiki”即可加载。数据以训练集形式组织,每条记录包含标题、正文、贡献者及命名空间等字段,可直接进行迭代访问或批量处理。这种集成方式大幅降低了数据获取与预处理的技术门槛,支持研究者快速开展韩语自然语言处理任务,如文本生成、信息抽取或知识图谱构建。
背景与挑战
背景概述
在数字时代,大规模文本数据集的构建对于自然语言处理领域的发展至关重要。heegyu/namuwiki数据集作为韩语维基百科namu.wiki的数据库转储,由社区贡献者于2022年3月1日创建,收录了超过86万条条目,数据量达3GB。该数据集的核心研究问题在于提供丰富的韩语结构化文本资源,支持语言模型训练、信息检索及知识图谱构建等任务,对韩语自然语言处理研究产生了深远影响,促进了跨语言技术应用的拓展。
当前挑战
heegyu/namuwiki数据集面临的挑战主要体现在两方面:在领域问题层面,它旨在解决韩语文本处理中的语义理解与知识表示难题,但韩语的复杂语法结构和多义词现象增加了模型准确解析的难度;在构建过程中,数据集依赖于社区协作编辑,导致数据质量参差不齐,可能存在信息冗余、格式不一致及版权合规性问题,这些因素对数据清洗与标准化提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,韩语文本资源的稀缺性一直是制约相关研究进展的关键因素。heegyu/namuwiki数据集作为一份全面的韩语维基百科转储,为韩语语言模型的预训练提供了丰富的语料基础。该数据集涵盖了广泛的韩语知识条目,其文本结构包含标题、正文及元数据,能够有效支持语言模型学习韩语的语法结构、语义表达及领域知识,是韩语自然语言处理任务中不可或缺的数据资源。
衍生相关工作
基于heegyu/namuwiki数据集,衍生出多项经典研究工作。例如,研究人员利用该数据集训练了韩语BERT变体,如KoBERT和KLUE-BERT,这些模型在韩语文本分类、命名实体识别等基准任务中表现出色。此外,该数据集还支持了韩语问答系统和摘要生成模型的开发,推动了韩语人工智能技术的创新与落地。
数据集最近研究
最新研究方向
在韩语自然语言处理领域,heegyu/namuwiki数据集作为一份全面的韩文维基百科式知识库,正成为前沿研究的热点资源。该数据集以其丰富的文化语境和游戏领域专有术语,为韩语大语言模型的预训练与微调提供了关键支持,尤其在提升模型对韩国本土文化内容的理解与生成能力方面展现出独特价值。随着全球对多语言AI模型需求的增长,该数据集在跨语言知识迁移、游戏文本挖掘及文化特定信息抽取等方向的研究日益活跃,推动了韩语NLP技术的本土化与精细化发展。其开放许可协议进一步促进了学术与工业界的协作,为构建更具包容性的多语言AI生态系统贡献了重要力量。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作