K-University-AIED/LearningChat_reflective_writing_vaults
收藏Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/K-University-AIED/LearningChat_reflective_writing_vaults
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-nd-4.0
configs:
- config_name: default
data_files:
- split: train
path: metadata.csv
dataset_info:
features:
- name: sample_id
dtype: string
- name: file_name
dtype: string
- name: vault_root_path
dtype: string
- name: course_name
dtype: string
- name: semester
dtype: string
- name: submission_type
dtype: string
- name: language
dtype: string
- name: content_md_count
dtype: int64
- name: content_image_count
dtype: int64
- name: content_pdf_count
dtype: int64
- name: content_canvas_count
dtype: int64
- name: has_obsidian_config
dtype: bool
- name: has_trash_or_archive
dtype: bool
- name: artifact_flag
dtype: string
- name: privacy_review_status
dtype: string
- name: notes
dtype: string
splits:
- name: train
num_examples: 46
---
# AI활용성찰적글쓰기(2025-2) 학생별 옵시디언 볼트 공개용 데이터셋
## 한 줄 요약
2025-2학기 한림대학교 `AI활용성찰적글쓰기` 수업의 기말과제 제출물인 학생별 개인 Obsidian 볼트 묶음을 공개용 기준으로 문서화한 데이터셋입니다.
## 데이터셋 개요
- 샘플 단위: 학생별 옵시디언 볼트 묶음 1개
- 총 샘플 수: 46
- 메타데이터 파일: `metadata.csv`
- 공개용 식별 방식: `student_001`부터 `student_046`까지의 익명 샘플 ID
- 데이터 성격: 학생별 개인 지식관리 볼트 제출물 요약 메타데이터
이 데이터셋은 개별 노트를 독립 샘플로 다루지 않습니다. 각 샘플은 하나의 학생 제출 묶음이며, 개별 Markdown 노트, 이미지, PDF, Canvas 파일은 해당 샘플의 하위 구성요소로 취급합니다.
## 생성 배경
본 데이터셋은 한림대학교 2025-2학기 `AI활용성찰적글쓰기` 수업의 기말과제 제출물을 공개용 설명 형식으로 정리한 것입니다. 원본 제출물은 학생이 직접 구성한 개인 Obsidian 볼트이며, 수업 관련 성찰 노트 외에도 개인 메모, 템플릿, 리소스, 시스템 파일이 함께 포함될 수 있습니다.
## 원본 제출물 검사 결과
- 상위 학생 묶음: 46
- 전체 파일 수: 13,957
- 원본 Markdown 파일 수: 2,602
- 원본 이미지 파일 수: 474
- 원본 PDF 파일 수: 51
- 원본 Canvas 파일 수: 12
- `.obsidian` 포함 묶음: 39
- `.trash` 포함 묶음: 17
- 상위 폴더가 실제 볼트 루트를 한 단계 감싸는 래퍼 구조: 36
- 이메일 패턴 탐지 건수: 45
- 휴대전화 패턴 탐지 건수: 26
- 앱 번들 또는 실행 환경 산출물 포함 묶음: 2
위 수치는 원본 제출물 상태를 설명하기 위한 검사 결과입니다. 실제 공개용 콘텐츠 집계는 아래의 정제 규칙을 적용한 결과를 따릅니다.
## 공개용 정제 결과
- 공개용 Markdown 파일 수: 2,434
- 공개용 이미지 파일 수: 471
- 공개용 PDF 파일 수: 51
- 공개용 Canvas 파일 수: 4
- `has_trash_or_archive=true` 샘플 수: 18
- `no_obsidian_root` 표기 샘플 수: 7
- `vault_root_normalized` 표기 샘플 수: 7
- `app_bundle_detected` 표기 샘플 수: 2
- `broad_personal_scope` 표기 샘플 수: 10
- `artifact_flag=none`: 5
- `artifact_flag=plugin_asset`: 10
- `artifact_flag=app_bundle`: 1
- `artifact_flag=mixed`: 30
`artifact_flag=cache` 단독 사례는 이번 집계에서 관찰되지 않았습니다. 캐시성 산출물은 대체로 다른 플러그인 자산 또는 앱 번들과 함께 발견되어 `mixed`로 분류되었습니다.
## 공개 범위 및 정제 원칙
- 학생별 제출 묶음을 `metadata.csv`의 1행으로 요약합니다.
- 콘텐츠 집계에는 Markdown, 이미지, PDF, Canvas만 반영합니다.
- 다음 경로 또는 파일은 공개용 콘텐츠 수치에서 제외합니다.
- `.obsidian/`
- `.trash/`
- `.smtcmp_json_db/`
- 앱 번들 및 런타임 파일: `*.app`, `*.exe`, `*.dll`, `*.pak`, `*.asar`, `*.node`
- 시스템 또는 캐시성 산출물: `*.json`, `*.ajson`, `*.js`, `*.css`, `*.ttf`, `.DS_Store`, 빈 확장자 바이너리
- `vault_root_path`는 공개용 익명 릴리스 기준 내부 루트 경로를 기록합니다.
- 실제 상대 경로에 학생 이름이나 학번이 직접 드러나는 경우 `vault_root_path`는 `./`로 정규화하고 `notes`에 `vault_root_normalized`를 기록합니다.
## metadata.csv 필드 설명
| 필드명 | 설명 |
| --- | --- |
| `sample_id` | 공개용 익명 샘플 ID |
| `file_name` | 공개용 기준 상대 경로. 예: `data/student_001/` |
| `vault_root_path` | 샘플 내부에서 실제 볼트가 시작되는 공개용 기준 경로 |
| `course_name` | 교과목명 |
| `semester` | 학기 정보 |
| `submission_type` | 제출물 유형 |
| `language` | 기본 언어 표시 |
| `content_md_count` | 정제 후 포함되는 Markdown 파일 수 |
| `content_image_count` | 정제 후 포함되는 이미지 파일 수 |
| `content_pdf_count` | 정제 후 포함되는 PDF 파일 수 |
| `content_canvas_count` | 정제 후 포함되는 Canvas 파일 수 |
| `has_obsidian_config` | `.obsidian` 설정 폴더 존재 여부 |
| `has_trash_or_archive` | `.trash` 또는 아카이브성 폴더 존재 여부 |
| `artifact_flag` | 비콘텐츠 산출물 상태 요약 |
| `privacy_review_status` | 개인정보 점검 필요 상태 |
| `notes` | 예외 또는 검토 포인트를 세미콜론으로 연결한 값 |
### `artifact_flag` 값
- `none`: 특이 산출물 미탐지
- `plugin_asset`: 플러그인 또는 테마 자산 중심
- `app_bundle`: 앱 번들 또는 실행 환경 중심
- `mixed`: 플러그인 자산, 캐시, 앱 번들 요소가 복합적으로 확인됨
- `cache`: 예약 값. 이번 릴리스 집계에서는 단독 사례 없음
### `notes` 값
- `wrapper_dir`: 상위 학생 폴더 아래에 실제 볼트 루트가 한 단계 더 있음
- `duplicate_name_prefix`: 상위 폴더명 접두가 다른 샘플과 중복됨
- `no_obsidian_root`: `.obsidian` 기반 볼트 루트를 확인하지 못함
- `vault_root_normalized`: 원래 상대 경로가 실명 또는 학번 노출 가능성이 있어 `./`로 정규화됨
- `trash_detected`: `.trash` 또는 아카이브성 폴더가 확인됨
- `app_bundle_detected`: Obsidian 앱 번들 또는 실행 환경 산출물이 확인됨
- `broad_personal_scope`: 포함 Markdown 파일 수가 많아 대형 개인 볼트일 가능성이 높은 점검용 휴리스틱
`broad_personal_scope`는 의미론적 분류가 아니라 대형 혼합형 볼트 여부를 빠르게 검토하기 위한 보수적 플래그입니다. 이번 데이터셋에서는 정제 후 Markdown 파일 수가 60개 이상인 샘플에 부여했습니다.
## 디렉터리 구조 예시
```text
dataset-root/
├─ metadata.csv
├─ README.md
└─ data/
├─ student_001/
├─ student_002/
├─ ...
└─ student_046/
```
공개용 데이터 배치에서는 샘플 디렉터리 내부에서 실제 볼트 루트가 `vault_root_path`에 기록된 위치에서 시작한다고 가정합니다.
## 비식별 및 개인정보 주의
- 공개용 문서와 메타데이터에는 학생 실명과 학번을 직접 기록하지 않습니다.
- 원본 제출물에는 파일명, 폴더명, 노트 본문 안에 식별정보가 남아 있을 가능성이 있습니다.
- 원본 검사에서 이메일 패턴 45건, 휴대전화 패턴 26건이 확인되었으므로 모든 샘플의 `privacy_review_status`를 `required`로 설정했습니다.
- 실제 업로드 파일명이나 내부 폴더명이 익명화되지 않으면 본 README의 비식별 전제는 성립하지 않습니다.
## 제한사항
- 원본 제출물은 수업 전용 데이터만으로 구성되지 않습니다. 수업 관련 성찰 노트와 개인 메모, 템플릿, 리소스가 함께 존재할 수 있습니다.
- 일부 제출물은 플러그인 자산, 캐시, 앱 번들, 실행 파일이 포함된 상태로 제출되었습니다.
- 정제 후 콘텐츠 수가 `0`인 샘플이 3개 존재합니다. 이들은 앱 번들 중심 묶음 또는 볼트 루트 미검출 사례로, 외부 공개 전에 별도 검토가 필요합니다.
- `.trash` 정확 일치 폴더는 17개 샘플에서 확인되었고, `has_trash_or_archive`는 18개 샘플에서 `true`입니다.
- `vault_root_path`는 공개용 설명을 위한 논리 경로이므로, 원본 저장소의 실제 상대 경로와 일치하지 않을 수 있습니다.
- 이 데이터셋은 라벨링된 ML 학습 데이터가 아니라 학생별 제출 묶음을 설명하는 공개용 메타데이터입니다.
## 라이선스 및 연락처
현재 README의 라이선스와 연락처는 루트 샘플 템플릿의 기본값을 임시로 재사용한 것입니다. 공식 제출 양식이나 기관 안내가 도착하면 우선 갱신해야 합니다.
- 임시 라이선스: `CC BY NC ND 4.0`
- 프로젝트: `글로컬대학 30`
- Project ID: `GLOCAL-202407990001`
- Contact: `shha@hallym.ac.kr`
提供机构:
K-University-AIED



