alwaysgood/ko-news-split-512
收藏Hugging Face2026-03-23 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/alwaysgood/ko-news-split-512
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ko
license: cc-by-nc-4.0
tags:
- korean
- news
- economics
- finance
- encyclopedia
- text-corpus
- pre-training
pretty_name: Korean News & Terms Corpus (512-token chunks)
size_categories:
- 100K<n<1M
task_categories:
- text-generation
- fill-mask
configs:
- config_name: default
data_files:
- split: train
path: "*.jsonl"
---
# Korean News & Terms Corpus (512-token chunks)
한국어 뉴스 기사 및 백과사전/용어사전 데이터를 Qwen3-4B 토크나이저 기준 **512 토큰 이하**로 분할한 사전학습/미세조정용 코퍼스입니다.
## 📊 Dataset Statistics
| File | Source | Chunks | Size | Content Field |
|---|---|---:|---:|---|
| `hk.jsonl` | 한국경제 뉴스 | 82,533 | 122.7 MB | `content` |
| `mk.jsonl` | 매일경제 뉴스 | 18,610 | 27.8 MB | `content` |
| `naver_terms_clean.jsonl` | 네이버 지식백과 용어사전 | 25,699 | 28.9 MB | `text` |
| `korea-bank-700-cleaned.jsonl` | 한국은행 경제용어 700선 | 796 | 1.0 MB | `text` |
| **Total** | | **127,638** | **180.4 MB** | |
## 🗂️ Data Sources
### 한국경제 (hk.jsonl)
- 경제, 금융, 산업, 국제 등 다양한 분야의 뉴스 기사
- 카테고리: 반도체, 자동차/배터리, 은행, 보험, 거시경제, 세금, 부동산, 암호화폐/핀테크, 조선/해운 등 30+ 카테고리
### 매일경제 (mk.jsonl)
- 매일경제 뉴스 기사
### 네이버 지식백과 (naver_terms_clean.jsonl)
- 학문명백과, 시사상식사전, 시사경제용어사전, 매일경제용어사전, 지식경제용어사전
- 학술 및 경제 용어에 대한 체계적인 설명
### 한국은행 경제용어 700선 (korea-bank-700-cleaned.jsonl)
- 한국은행에서 발간한 경제용어 해설집
- 카테고리: 통화정책, 거시경제, 금융시장, 금융기관, 금융규제, 국제금융, 재정, 지급결제 등
## ✂️ Chunking Strategy
- **Tokenizer**: Qwen/Qwen3-4B
- **Max content tokens**: 480 (약 32 토큰은 프롬프트/특수 토큰용으로 예약)
- **분할 단위**: 문단(`\n`) 기준 → 문단이 480 토큰 초과 시 문장 단위로 재분할
- **메타데이터**: 각 청크에 `chunk_id`, `total_chunks`, `original_char_count` 필드 포함
## 📝 Schema
### hk.jsonl / mk.jsonl
```json
{
"title": "기사 제목",
"content": "기사 본문 (분할된 청크)",
"date": "YYYY-MM-DD",
"author": "기자명",
"category": "카테고리",
"url": "원본 URL",
"site_name": "매체명",
"language": "ko",
"char_count": 1234,
"original_char_count": 5678,
"chunk_id": 0,
"total_chunks": 3,
"crawled_at": "2025-...",
"method": "..."
}
```
### naver_terms_clean.jsonl
```json
{
"text": "용어 설명 본문 (분할된 청크)",
"meta": {
"source": "naver_terms",
"category": "학문명백과",
"title": "항목명",
"url": "원본 URL",
"chunk": 0,
"total_chunks": 12
},
"char_count": 1234,
"original_char_count": 5678,
"chunk_id": 0,
"total_chunks": 3
}
```
### korea-bank-700-cleaned.jsonl
```json
{
"term": "경제용어",
"text": "용어 해설 (분할된 청크)",
"categories": ["통화정책", "거시경제"],
"char_count": 1234,
"original_char_count": 5678,
"chunk_id": 0,
"total_chunks": 2
}
```
## 🚀 Usage
```python
from datasets import load_dataset
ds = load_dataset("alwaysgood/ko-news-split-512")
print(ds)
```
개별 파일 로드:
```python
from datasets import load_dataset
hk = load_dataset("json", data_files="hf://datasets/alwaysgood/ko-news-split-512/hk.jsonl")
naver = load_dataset("json", data_files="hf://datasets/alwaysgood/ko-news-split-512/naver_terms_clean.jsonl")
```
## ⚠️ License & Disclaimer
이 데이터셋은 연구 및 교육 목적으로 수집·가공되었습니다. 원본 데이터의 저작권은 각 원저작자(한국경제, 매일경제, 네이버, 한국은행)에게 있습니다. 상업적 이용 시 원저작자의 이용 약관을 확인해 주세요.
提供机构:
alwaysgood



