choonok/Qwen3.5-397B-AISFT-SAMPLE
收藏Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/choonok/Qwen3.5-397B-AISFT-SAMPLE
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ko
license: apache-2.0
task_categories:
- question-answering
- text-generation
tags:
- veterinary
- medical
- sft
- korean
- qwen
size_categories:
- 10K<n<50K
---
# Qwen3.5-397B-AISFT-SAMPLE
수의학 도메인 SFT(Supervised Fine-Tuning) 데이터셋입니다.
실제 동물병원 진료 차트, 수의학 논문, 수의학 용어집을 기반으로 `nvidia/Qwen3.5-397B-A17B-NVFP4` 모델이 생성하고, 동일 모델이 6개 항목(24점 만점)으로 평가하여 20점 이상 통과한 고품질 Q-A 쌍입니다.
## Dataset Summary
| 항목 | 수치 |
|------|------|
| 총 데이터 수 | **17,026건** |
| 도메인 | 진료 / 연구 / 용어집 (3개) |
| 언어 | 한국어 (영문 의학용어 병기) |
| 생성 모델 | nvidia/Qwen3.5-397B-A17B-NVFP4 |
| 평가 모델 | nvidia/Qwen3.5-397B-A17B-NVFP4 |
| 평가 기준 | 6개 항목, 24점 만점, 20점 이상 통과 |
| 추정 총 토큰 수 | ~10.6M tokens |
## Domain Distribution
| 도메인 | 건수 | 비율 | 소스 |
|--------|------|------|------|
| 진료 | 5,500 | 32.3% | 실제 동물병원 진료 차트 기록 (4개 병원) |
| 연구 | 6,118 | 35.9% | 수의학 저널 논문 11개 분야 |
| 용어집 | 5,408 | 31.8% | 수의학 용어 코퍼스 77,765개 중 필터링 |
## Statistics
| 항목 | 평균 | 최소 | 최대 |
|------|------|------|------|
| 질문 길이 (chars) | 153 | 33 | 445 |
| 답변 길이 (chars) | 782 | 265 | 2,224 |
## Quality Assurance
각 Q-A 쌍은 LLM 기반 자동 평가를 거쳐 다음 6개 항목에서 채점됩니다:
**진료 도메인**: question_quality, answer_structure, clinical_accuracy, mandatory_elements, safety, source_integrity
**연구 도메인**: question_quality, answer_structure, clinical_accuracy, knowledge_internalization, mandatory_elements, safety
**용어집 도메인**: question_quality, answer_structure, clinical_accuracy, mandatory_elements, completeness, safety
- 각 항목 1~4점, 총 24점 만점
- **20점 이상만 수록** (약 83% 이상 달성)
## Data Format
```json
{
"messages": [
{"role": "user", "content": "11세 말티즈(중여, 3kg) mammary osteosarcoma stage 4 진단, 심장질환 동반 시 항암 프로토콜은?"},
{"role": "assistant", "content": "[치료 옵션]\n1. NSAID 단독: piroxicam 0.3mg/kg PO SID...\n[심장질환 동반 시 주의]\n- doxorubicin 심독성 위험으로 금기 고려..."}
],
"domain": "진료"
}
```
## Source Data
### 진료
- 4개 동물병원의 실제 진료 차트 기록 (JSONL)
- 환자정보, 진료기록, 처방 내역 포함
- 질문 유형: 빠른 사실 확인(A), 감별/추론(B), 치료/프로토콜(C), 의사결정(D), 차트 작성(E), 보호자 설명(F), 학술 근거(G), 교육/설명(H)
### 연구
- 11개 수의학 저널 논문 (Vet Surgery, Vet Dermatology, Vet Radiol Ultrasound 등)
- 논문 지식을 내재화된 임상 Q-A로 변환 (특정 논문 인용 없이 교과서 톤)
- 질문 유형: 예후/생존(I), 약물/치료법(J), 감별진단/검사(K), 치료법 비교(L)
### 용어집
- 77,765개 수의학 용어 코퍼스에서 임상 관련 용어 필터링
- 구조화 라벨 형식 ([정의][정상범위][임상의미][감별][주의])
- 질문 유형: 현장즉답(M), 임상접근(N), 감별진단(O), 프로토콜(P), 검사해석(Q), 용량/투약(R), 영상해석(S), 시술(T), 질환/진단(U)
## Guideline Design
본 데이터셋의 Q-A 생성 가이드라인은 10명의 가상 수의사 전문가 패널(내과, 외과, 종양학, 마취과, 영상의학, 피부과, 신경과, 정형외과, 응급/중환자 — 경력 3~20년, 1차/2차/대학병원)의 설문 기반 컨센서스로 설계되었습니다.
## Intended Use
- 수의학 도메인 LLM의 SFT(Supervised Fine-Tuning)
- Replay 데이터와 혼합하여 도메인 특화 + 범용 능력 유지
- 권장 혼합 비율: 수의학 SFT 30~40% + 범용 Replay 60~70%
## Limitations
- 자동 생성 + 자동 평가 데이터로, 수의사의 직접 검수를 거치지 않았습니다
- 연구 도메인은 논문 인용 없이 내재화된 지식으로 서술하므로 출처 추적이 불가합니다
- 진료 도메인의 원본 차트는 특정 병원들의 데이터로, 지역/기관 편향이 있을 수 있습니다
## Citation
```bibtex
@dataset{choonok_aisft_sample_2026,
title={Qwen3.5-397B-AISFT-SAMPLE: Veterinary Domain SFT Dataset},
author={Choonok Company},
year={2026},
publisher={Hugging Face},
url={https://huggingface.co/datasets/choonok/Qwen3.5-397B-AISFT-SAMPLE}
}
```
提供机构:
choonok



