five

alwaysgood/ko-news-split-512

收藏
Hugging Face2026-03-23 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/alwaysgood/ko-news-split-512
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ko license: cc-by-nc-4.0 tags: - korean - news - economics - finance - encyclopedia - text-corpus - pre-training pretty_name: Korean News & Terms Corpus (512-token chunks) size_categories: - 100K<n<1M task_categories: - text-generation - fill-mask configs: - config_name: default data_files: - split: train path: "*.jsonl" --- # Korean News & Terms Corpus (512-token chunks) 한국어 뉴스 기사 및 백과사전/용어사전 데이터를 Qwen3-4B 토크나이저 기준 **512 토큰 이하**로 분할한 사전학습/미세조정용 코퍼스입니다. ## 📊 Dataset Statistics | File | Source | Chunks | Size | Content Field | |---|---|---:|---:|---| | `hk.jsonl` | 한국경제 뉴스 | 82,533 | 122.7 MB | `content` | | `mk.jsonl` | 매일경제 뉴스 | 18,610 | 27.8 MB | `content` | | `naver_terms_clean.jsonl` | 네이버 지식백과 용어사전 | 25,699 | 28.9 MB | `text` | | `korea-bank-700-cleaned.jsonl` | 한국은행 경제용어 700선 | 796 | 1.0 MB | `text` | | **Total** | | **127,638** | **180.4 MB** | | ## 🗂️ Data Sources ### 한국경제 (hk.jsonl) - 경제, 금융, 산업, 국제 등 다양한 분야의 뉴스 기사 - 카테고리: 반도체, 자동차/배터리, 은행, 보험, 거시경제, 세금, 부동산, 암호화폐/핀테크, 조선/해운 등 30+ 카테고리 ### 매일경제 (mk.jsonl) - 매일경제 뉴스 기사 ### 네이버 지식백과 (naver_terms_clean.jsonl) - 학문명백과, 시사상식사전, 시사경제용어사전, 매일경제용어사전, 지식경제용어사전 - 학술 및 경제 용어에 대한 체계적인 설명 ### 한국은행 경제용어 700선 (korea-bank-700-cleaned.jsonl) - 한국은행에서 발간한 경제용어 해설집 - 카테고리: 통화정책, 거시경제, 금융시장, 금융기관, 금융규제, 국제금융, 재정, 지급결제 등 ## ✂️ Chunking Strategy - **Tokenizer**: Qwen/Qwen3-4B - **Max content tokens**: 480 (약 32 토큰은 프롬프트/특수 토큰용으로 예약) - **분할 단위**: 문단(`\n`) 기준 → 문단이 480 토큰 초과 시 문장 단위로 재분할 - **메타데이터**: 각 청크에 `chunk_id`, `total_chunks`, `original_char_count` 필드 포함 ## 📝 Schema ### hk.jsonl / mk.jsonl ```json { "title": "기사 제목", "content": "기사 본문 (분할된 청크)", "date": "YYYY-MM-DD", "author": "기자명", "category": "카테고리", "url": "원본 URL", "site_name": "매체명", "language": "ko", "char_count": 1234, "original_char_count": 5678, "chunk_id": 0, "total_chunks": 3, "crawled_at": "2025-...", "method": "..." } ``` ### naver_terms_clean.jsonl ```json { "text": "용어 설명 본문 (분할된 청크)", "meta": { "source": "naver_terms", "category": "학문명백과", "title": "항목명", "url": "원본 URL", "chunk": 0, "total_chunks": 12 }, "char_count": 1234, "original_char_count": 5678, "chunk_id": 0, "total_chunks": 3 } ``` ### korea-bank-700-cleaned.jsonl ```json { "term": "경제용어", "text": "용어 해설 (분할된 청크)", "categories": ["통화정책", "거시경제"], "char_count": 1234, "original_char_count": 5678, "chunk_id": 0, "total_chunks": 2 } ``` ## 🚀 Usage ```python from datasets import load_dataset ds = load_dataset("alwaysgood/ko-news-split-512") print(ds) ``` 개별 파일 로드: ```python from datasets import load_dataset hk = load_dataset("json", data_files="hf://datasets/alwaysgood/ko-news-split-512/hk.jsonl") naver = load_dataset("json", data_files="hf://datasets/alwaysgood/ko-news-split-512/naver_terms_clean.jsonl") ``` ## ⚠️ License & Disclaimer 이 데이터셋은 연구 및 교육 목적으로 수집·가공되었습니다. 원본 데이터의 저작권은 각 원저작자(한국경제, 매일경제, 네이버, 한국은행)에게 있습니다. 상업적 이용 시 원저작자의 이용 약관을 확인해 주세요.
提供机构:
alwaysgood
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作