five

K-University-AIED/LearningChat_accounting_ai_questions

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/K-University-AIED/LearningChat_accounting_ai_questions
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 configs: - config_name: default data_files: - split: train path: metadata.csv dataset_info: features: - name: record_id dtype: string - name: file_name dtype: string - name: section_id dtype: string - name: export_batch_ts dtype: string - name: student_uid dtype: string - name: student_image_index dtype: int64 - name: file_ext dtype: string - name: file_size_bytes dtype: int64 - name: filename_pattern_group dtype: string - name: sha256 dtype: string splits: - name: train num_examples: 787 tags: - education - accounting - ai-questions language: - ko size_categories: - n<1K --- # 공개용 회계입문 AI질문 이미지 데이터셋 이 데이터셋은 회계입문 수업의 `AI질문 1회` 과제 제출 이미지들을 공개용으로 문서화하기 위해 정리한 메타데이터 패키지다. 현재 폴더에 존재하는 6개 수집 배치 전체를 통합했으며, 공개 버전에서는 학생 실명과 원본 파일명을 직접 노출하지 않도록 비식별 규칙을 적용했다. 본 문서와 함께 제공되는 `metadata.csv`는 이미지 파일 1개당 1행을 가지는 인벤토리다. 실제 공개 배포 시 이미지 파일은 `data/images/AIQ-XXXXXX.ext` 형식으로 익명 재배치하는 것을 전제로 한다. ## 1. 데이터셋 범위 - 대상 과목: 회계입문 - 대상 과제: `AI질문 1회` - 포함 범위: 현재 작업 폴더에 있는 6개 수집 배치 전체 - 레코드 단위: 이미지 파일 1개 = `metadata.csv` 1행 - 공개 버전 기준: 완전 비식별 전제 ### 분반별 구성 | section_id | 익명 제출자 수 | 이미지 수 | | --- | ---: | ---: | | 205201-02 | 38 | 313 | | 205201-03 | 39 | 484 | | 합계 | 77 | 797 | ### 배치 시각별 구성 | section_id | export_batch_ts | 이미지 수 | | --- | --- | ---: | | 205201-02 | 2026-02-03_11-49-51 | 155 | | 205201-02 | 2026-02-03_11-53-38 | 158 | | 205201-03 | 2026-02-03_11-54-31 | 121 | | 205201-03 | 2026-02-03_11-54-50 | 125 | | 205201-03 | 2026-02-03_11-54-59 | 134 | | 205201-03 | 2026-02-03_11-56-04 | 104 | ## 2. 수집 배경과 원천 원본 데이터는 학생들이 과제 제출 과정에서 업로드한 이미지 파일들로 구성되어 있다. 현재 로컬 작업 폴더에서는 다음 구조로 정리되어 있었다. ```text 클라썸_과제물_회계입문 (분반)__과제_ AI질문 1회_배치시각/ └─ 검토 완료/ └─ 학생명/ └─ 이미지 파일 ``` 이미지의 실제 내용은 스크린샷, 모바일 캡처, 사진, 앱 내보내기 이미지 등이 혼합되어 있으며, 해상도와 비율, 파일명 규칙이 균질하지 않다. 원본에는 동일 분반 내 여러 수집 배치가 존재하므로, 본 메타데이터는 `section_id`와 `export_batch_ts`를 함께 보존한다. ## 3. 데이터 구성 요약 - 총 이미지 수: 797 - 총 익명 제출자 수: 77 - 총 용량: 257,782,276 bytes (약 245.84 MB) - 파일 형식: `png` 485개, `jpg` 303개, `jpeg` 9개 - 중복 제거 여부: 수행하지 않음. 원본 수집 배치의 파일을 전수 유지함 ### 원본 파일명 패턴 그룹 분포 `filename_pattern_group`은 원본 파일명을 직접 공개하지 않고 파일 생성 양식을 기술적으로 요약하기 위한 비식별 분류값이다. | filename_pattern_group | 의미 | 건수 | | --- | --- | ---: | | `uuid_like` | UUID 유사 자동 생성 파일명 | 418 | | `rn_image_picker` | React Native image picker 임시 파일명 | 103 | | `screenshot` | 스크린샷 계열 파일명 | 67 | | `numeric` | 숫자 위주 파일명 | 43 | | `img_prefix` | `IMG_` 접두 파일명 | 33 | | `kakaotalk` | 카카오톡 저장 파일명 | 33 | | `other` | 그 외 비정형 파일명 | 100 | ## 4. 비식별화 및 파일명 정책 - 학생 실명은 공개 메타데이터에 포함하지 않는다. - 원본 학생 폴더 경로와 원본 파일명은 공개 메타데이터에 포함하지 않는다. - 학번, 학과명, 기기명 등 식별 가능 문자열은 공개 메타데이터에서 제거한다. - 각 제출자는 분반별 익명 ID인 `student_uid`로만 표현한다. - 각 이미지에는 전역 고유 식별자인 `record_id`를 부여한다. - 공개용 `file_name`은 `data/images/AIQ-XXXXXX.ext` 형식의 익명 파일명으로 정의한다. 익명 ID 예시는 다음과 같다. - `205201-02_STU_001` - `205201-03_STU_014` `student_uid`는 같은 분반 안에서 정렬된 제출자 목록 기준으로 부여한 안정적인 익명 식별자다. `student_image_index`는 같은 수집 배치 내 동일 제출자 폴더에서 자연 정렬한 순번이다. ## 5. metadata.csv 컬럼 설명 | column | type | 설명 | | --- | --- | --- | | `record_id` | string | 전역 순번 기반 공개 식별자. 형식: `AIQ-000001` | | `file_name` | string | 공개 패키지에서 사용할 익명 파일 경로. 형식: `data/images/AIQ-000001.png` | | `section_id` | string | 원본 최상위 폴더에서 추출한 분반 ID | | `export_batch_ts` | string | 원본 최상위 폴더 끝의 배치 시각 | | `student_uid` | string | 분반별 익명 제출자 ID | | `student_image_index` | int | 같은 배치의 같은 제출자 폴더 안에서의 자연 정렬 순번 | | `file_ext` | string | 파일 확장자 (`png`, `jpg`, `jpeg`) | | `file_size_bytes` | int | 파일 크기 바이트 단위 값 | | `filename_pattern_group` | string | 원본 파일명 규칙을 비식별적으로 분류한 값 | | `sha256` | string | 무결성 검증용 SHA-256 해시 | ## 6. 활용 제한 및 한계 - 이 데이터셋에는 정답 라벨, 평가 점수, 과제 채점 결과가 포함되어 있지 않다. - 현재 메타데이터는 기술적 인벤토리 중심이며, 의미 기반 주석은 포함하지 않는다. - 이미지 내용은 학생이 직접 업로드한 화면 캡처 또는 사진이므로, 텍스트 노출 방식과 화질이 매우 불균질하다. - 원본 이미지 내부에는 이름, 계정 정보, 대화 내용, 기기 정보 등 개인정보가 남아 있을 수 있다. - 따라서 외부 공개 전에는 이미지 픽셀 단위의 2차 비식별 검수와 필요 시 마스킹 작업이 별도로 필요하다. ## 7. 검증 요약 현재 `metadata.csv` 기준으로 다음 조건을 만족하도록 생성했다. - 총 행 수 797 - `record_id` 유일성 확보 - `file_name` 유일성 확보 - `section_id`별 건수 일치: `205201-02=313`, `205201-03=484` - `student_uid` 고유 개수 일치: `205201-02=38`, `205201-03=39` - `file_ext` 값은 `png`, `jpg`, `jpeg`로 제한 - `filename_pattern_group` 값은 정의된 7개 범주로 제한 ## 8. 라이선스 및 문의처 - 임시 라이선스: `CC BY NC ND 4.0` - 프로젝트: `글로컬대학 30`
提供机构:
K-University-AIED
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作