five

K-University-AIED/LearningChat_reflective_writing_vaults

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/K-University-AIED/LearningChat_reflective_writing_vaults
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 configs: - config_name: default data_files: - split: train path: metadata.csv dataset_info: features: - name: sample_id dtype: string - name: file_name dtype: string - name: vault_root_path dtype: string - name: course_name dtype: string - name: semester dtype: string - name: submission_type dtype: string - name: language dtype: string - name: content_md_count dtype: int64 - name: content_image_count dtype: int64 - name: content_pdf_count dtype: int64 - name: content_canvas_count dtype: int64 - name: has_obsidian_config dtype: bool - name: has_trash_or_archive dtype: bool - name: artifact_flag dtype: string - name: privacy_review_status dtype: string - name: notes dtype: string splits: - name: train num_examples: 46 --- # AI활용성찰적글쓰기(2025-2) 학생별 옵시디언 볼트 공개용 데이터셋 ## 한 줄 요약 2025-2학기 한림대학교 `AI활용성찰적글쓰기` 수업의 기말과제 제출물인 학생별 개인 Obsidian 볼트 묶음을 공개용 기준으로 문서화한 데이터셋입니다. ## 데이터셋 개요 - 샘플 단위: 학생별 옵시디언 볼트 묶음 1개 - 총 샘플 수: 46 - 메타데이터 파일: `metadata.csv` - 공개용 식별 방식: `student_001`부터 `student_046`까지의 익명 샘플 ID - 데이터 성격: 학생별 개인 지식관리 볼트 제출물 요약 메타데이터 이 데이터셋은 개별 노트를 독립 샘플로 다루지 않습니다. 각 샘플은 하나의 학생 제출 묶음이며, 개별 Markdown 노트, 이미지, PDF, Canvas 파일은 해당 샘플의 하위 구성요소로 취급합니다. ## 생성 배경 본 데이터셋은 한림대학교 2025-2학기 `AI활용성찰적글쓰기` 수업의 기말과제 제출물을 공개용 설명 형식으로 정리한 것입니다. 원본 제출물은 학생이 직접 구성한 개인 Obsidian 볼트이며, 수업 관련 성찰 노트 외에도 개인 메모, 템플릿, 리소스, 시스템 파일이 함께 포함될 수 있습니다. ## 원본 제출물 검사 결과 - 상위 학생 묶음: 46 - 전체 파일 수: 13,957 - 원본 Markdown 파일 수: 2,602 - 원본 이미지 파일 수: 474 - 원본 PDF 파일 수: 51 - 원본 Canvas 파일 수: 12 - `.obsidian` 포함 묶음: 39 - `.trash` 포함 묶음: 17 - 상위 폴더가 실제 볼트 루트를 한 단계 감싸는 래퍼 구조: 36 - 이메일 패턴 탐지 건수: 45 - 휴대전화 패턴 탐지 건수: 26 - 앱 번들 또는 실행 환경 산출물 포함 묶음: 2 위 수치는 원본 제출물 상태를 설명하기 위한 검사 결과입니다. 실제 공개용 콘텐츠 집계는 아래의 정제 규칙을 적용한 결과를 따릅니다. ## 공개용 정제 결과 - 공개용 Markdown 파일 수: 2,434 - 공개용 이미지 파일 수: 471 - 공개용 PDF 파일 수: 51 - 공개용 Canvas 파일 수: 4 - `has_trash_or_archive=true` 샘플 수: 18 - `no_obsidian_root` 표기 샘플 수: 7 - `vault_root_normalized` 표기 샘플 수: 7 - `app_bundle_detected` 표기 샘플 수: 2 - `broad_personal_scope` 표기 샘플 수: 10 - `artifact_flag=none`: 5 - `artifact_flag=plugin_asset`: 10 - `artifact_flag=app_bundle`: 1 - `artifact_flag=mixed`: 30 `artifact_flag=cache` 단독 사례는 이번 집계에서 관찰되지 않았습니다. 캐시성 산출물은 대체로 다른 플러그인 자산 또는 앱 번들과 함께 발견되어 `mixed`로 분류되었습니다. ## 공개 범위 및 정제 원칙 - 학생별 제출 묶음을 `metadata.csv`의 1행으로 요약합니다. - 콘텐츠 집계에는 Markdown, 이미지, PDF, Canvas만 반영합니다. - 다음 경로 또는 파일은 공개용 콘텐츠 수치에서 제외합니다. - `.obsidian/` - `.trash/` - `.smtcmp_json_db/` - 앱 번들 및 런타임 파일: `*.app`, `*.exe`, `*.dll`, `*.pak`, `*.asar`, `*.node` - 시스템 또는 캐시성 산출물: `*.json`, `*.ajson`, `*.js`, `*.css`, `*.ttf`, `.DS_Store`, 빈 확장자 바이너리 - `vault_root_path`는 공개용 익명 릴리스 기준 내부 루트 경로를 기록합니다. - 실제 상대 경로에 학생 이름이나 학번이 직접 드러나는 경우 `vault_root_path`는 `./`로 정규화하고 `notes`에 `vault_root_normalized`를 기록합니다. ## metadata.csv 필드 설명 | 필드명 | 설명 | | --- | --- | | `sample_id` | 공개용 익명 샘플 ID | | `file_name` | 공개용 기준 상대 경로. 예: `data/student_001/` | | `vault_root_path` | 샘플 내부에서 실제 볼트가 시작되는 공개용 기준 경로 | | `course_name` | 교과목명 | | `semester` | 학기 정보 | | `submission_type` | 제출물 유형 | | `language` | 기본 언어 표시 | | `content_md_count` | 정제 후 포함되는 Markdown 파일 수 | | `content_image_count` | 정제 후 포함되는 이미지 파일 수 | | `content_pdf_count` | 정제 후 포함되는 PDF 파일 수 | | `content_canvas_count` | 정제 후 포함되는 Canvas 파일 수 | | `has_obsidian_config` | `.obsidian` 설정 폴더 존재 여부 | | `has_trash_or_archive` | `.trash` 또는 아카이브성 폴더 존재 여부 | | `artifact_flag` | 비콘텐츠 산출물 상태 요약 | | `privacy_review_status` | 개인정보 점검 필요 상태 | | `notes` | 예외 또는 검토 포인트를 세미콜론으로 연결한 값 | ### `artifact_flag` 값 - `none`: 특이 산출물 미탐지 - `plugin_asset`: 플러그인 또는 테마 자산 중심 - `app_bundle`: 앱 번들 또는 실행 환경 중심 - `mixed`: 플러그인 자산, 캐시, 앱 번들 요소가 복합적으로 확인됨 - `cache`: 예약 값. 이번 릴리스 집계에서는 단독 사례 없음 ### `notes` 값 - `wrapper_dir`: 상위 학생 폴더 아래에 실제 볼트 루트가 한 단계 더 있음 - `duplicate_name_prefix`: 상위 폴더명 접두가 다른 샘플과 중복됨 - `no_obsidian_root`: `.obsidian` 기반 볼트 루트를 확인하지 못함 - `vault_root_normalized`: 원래 상대 경로가 실명 또는 학번 노출 가능성이 있어 `./`로 정규화됨 - `trash_detected`: `.trash` 또는 아카이브성 폴더가 확인됨 - `app_bundle_detected`: Obsidian 앱 번들 또는 실행 환경 산출물이 확인됨 - `broad_personal_scope`: 포함 Markdown 파일 수가 많아 대형 개인 볼트일 가능성이 높은 점검용 휴리스틱 `broad_personal_scope`는 의미론적 분류가 아니라 대형 혼합형 볼트 여부를 빠르게 검토하기 위한 보수적 플래그입니다. 이번 데이터셋에서는 정제 후 Markdown 파일 수가 60개 이상인 샘플에 부여했습니다. ## 디렉터리 구조 예시 ```text dataset-root/ ├─ metadata.csv ├─ README.md └─ data/ ├─ student_001/ ├─ student_002/ ├─ ... └─ student_046/ ``` 공개용 데이터 배치에서는 샘플 디렉터리 내부에서 실제 볼트 루트가 `vault_root_path`에 기록된 위치에서 시작한다고 가정합니다. ## 비식별 및 개인정보 주의 - 공개용 문서와 메타데이터에는 학생 실명과 학번을 직접 기록하지 않습니다. - 원본 제출물에는 파일명, 폴더명, 노트 본문 안에 식별정보가 남아 있을 가능성이 있습니다. - 원본 검사에서 이메일 패턴 45건, 휴대전화 패턴 26건이 확인되었으므로 모든 샘플의 `privacy_review_status`를 `required`로 설정했습니다. - 실제 업로드 파일명이나 내부 폴더명이 익명화되지 않으면 본 README의 비식별 전제는 성립하지 않습니다. ## 제한사항 - 원본 제출물은 수업 전용 데이터만으로 구성되지 않습니다. 수업 관련 성찰 노트와 개인 메모, 템플릿, 리소스가 함께 존재할 수 있습니다. - 일부 제출물은 플러그인 자산, 캐시, 앱 번들, 실행 파일이 포함된 상태로 제출되었습니다. - 정제 후 콘텐츠 수가 `0`인 샘플이 3개 존재합니다. 이들은 앱 번들 중심 묶음 또는 볼트 루트 미검출 사례로, 외부 공개 전에 별도 검토가 필요합니다. - `.trash` 정확 일치 폴더는 17개 샘플에서 확인되었고, `has_trash_or_archive`는 18개 샘플에서 `true`입니다. - `vault_root_path`는 공개용 설명을 위한 논리 경로이므로, 원본 저장소의 실제 상대 경로와 일치하지 않을 수 있습니다. - 이 데이터셋은 라벨링된 ML 학습 데이터가 아니라 학생별 제출 묶음을 설명하는 공개용 메타데이터입니다. ## 라이선스 및 연락처 현재 README의 라이선스와 연락처는 루트 샘플 템플릿의 기본값을 임시로 재사용한 것입니다. 공식 제출 양식이나 기관 안내가 도착하면 우선 갱신해야 합니다. - 임시 라이선스: `CC BY NC ND 4.0` - 프로젝트: `글로컬대학 30` - Project ID: `GLOCAL-202407990001` - Contact: `shha@hallym.ac.kr`
提供机构:
K-University-AIED
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作