five

choonok/Qwen3.5-397B-AISFT-SAMPLE

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/choonok/Qwen3.5-397B-AISFT-SAMPLE
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ko license: apache-2.0 task_categories: - question-answering - text-generation tags: - veterinary - medical - sft - korean - qwen size_categories: - 10K<n<50K --- # Qwen3.5-397B-AISFT-SAMPLE 수의학 도메인 SFT(Supervised Fine-Tuning) 데이터셋입니다. 실제 동물병원 진료 차트, 수의학 논문, 수의학 용어집을 기반으로 `nvidia/Qwen3.5-397B-A17B-NVFP4` 모델이 생성하고, 동일 모델이 6개 항목(24점 만점)으로 평가하여 20점 이상 통과한 고품질 Q-A 쌍입니다. ## Dataset Summary | 항목 | 수치 | |------|------| | 총 데이터 수 | **17,026건** | | 도메인 | 진료 / 연구 / 용어집 (3개) | | 언어 | 한국어 (영문 의학용어 병기) | | 생성 모델 | nvidia/Qwen3.5-397B-A17B-NVFP4 | | 평가 모델 | nvidia/Qwen3.5-397B-A17B-NVFP4 | | 평가 기준 | 6개 항목, 24점 만점, 20점 이상 통과 | | 추정 총 토큰 수 | ~10.6M tokens | ## Domain Distribution | 도메인 | 건수 | 비율 | 소스 | |--------|------|------|------| | 진료 | 5,500 | 32.3% | 실제 동물병원 진료 차트 기록 (4개 병원) | | 연구 | 6,118 | 35.9% | 수의학 저널 논문 11개 분야 | | 용어집 | 5,408 | 31.8% | 수의학 용어 코퍼스 77,765개 중 필터링 | ## Statistics | 항목 | 평균 | 최소 | 최대 | |------|------|------|------| | 질문 길이 (chars) | 153 | 33 | 445 | | 답변 길이 (chars) | 782 | 265 | 2,224 | ## Quality Assurance 각 Q-A 쌍은 LLM 기반 자동 평가를 거쳐 다음 6개 항목에서 채점됩니다: **진료 도메인**: question_quality, answer_structure, clinical_accuracy, mandatory_elements, safety, source_integrity **연구 도메인**: question_quality, answer_structure, clinical_accuracy, knowledge_internalization, mandatory_elements, safety **용어집 도메인**: question_quality, answer_structure, clinical_accuracy, mandatory_elements, completeness, safety - 각 항목 1~4점, 총 24점 만점 - **20점 이상만 수록** (약 83% 이상 달성) ## Data Format ```json { "messages": [ {"role": "user", "content": "11세 말티즈(중여, 3kg) mammary osteosarcoma stage 4 진단, 심장질환 동반 시 항암 프로토콜은?"}, {"role": "assistant", "content": "[치료 옵션]\n1. NSAID 단독: piroxicam 0.3mg/kg PO SID...\n[심장질환 동반 시 주의]\n- doxorubicin 심독성 위험으로 금기 고려..."} ], "domain": "진료" } ``` ## Source Data ### 진료 - 4개 동물병원의 실제 진료 차트 기록 (JSONL) - 환자정보, 진료기록, 처방 내역 포함 - 질문 유형: 빠른 사실 확인(A), 감별/추론(B), 치료/프로토콜(C), 의사결정(D), 차트 작성(E), 보호자 설명(F), 학술 근거(G), 교육/설명(H) ### 연구 - 11개 수의학 저널 논문 (Vet Surgery, Vet Dermatology, Vet Radiol Ultrasound 등) - 논문 지식을 내재화된 임상 Q-A로 변환 (특정 논문 인용 없이 교과서 톤) - 질문 유형: 예후/생존(I), 약물/치료법(J), 감별진단/검사(K), 치료법 비교(L) ### 용어집 - 77,765개 수의학 용어 코퍼스에서 임상 관련 용어 필터링 - 구조화 라벨 형식 ([정의][정상범위][임상의미][감별][주의]) - 질문 유형: 현장즉답(M), 임상접근(N), 감별진단(O), 프로토콜(P), 검사해석(Q), 용량/투약(R), 영상해석(S), 시술(T), 질환/진단(U) ## Guideline Design 본 데이터셋의 Q-A 생성 가이드라인은 10명의 가상 수의사 전문가 패널(내과, 외과, 종양학, 마취과, 영상의학, 피부과, 신경과, 정형외과, 응급/중환자 — 경력 3~20년, 1차/2차/대학병원)의 설문 기반 컨센서스로 설계되었습니다. ## Intended Use - 수의학 도메인 LLM의 SFT(Supervised Fine-Tuning) - Replay 데이터와 혼합하여 도메인 특화 + 범용 능력 유지 - 권장 혼합 비율: 수의학 SFT 30~40% + 범용 Replay 60~70% ## Limitations - 자동 생성 + 자동 평가 데이터로, 수의사의 직접 검수를 거치지 않았습니다 - 연구 도메인은 논문 인용 없이 내재화된 지식으로 서술하므로 출처 추적이 불가합니다 - 진료 도메인의 원본 차트는 특정 병원들의 데이터로, 지역/기관 편향이 있을 수 있습니다 ## Citation ```bibtex @dataset{choonok_aisft_sample_2026, title={Qwen3.5-397B-AISFT-SAMPLE: Veterinary Domain SFT Dataset}, author={Choonok Company}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/choonok/Qwen3.5-397B-AISFT-SAMPLE} } ```
提供机构:
choonok
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作