학생 실력 향상 지표 수립 및 학생 유형 클러스터링
team C : 김지희 김남훈 박지호 손승진 정건우 안민용 김한빈
team B : 김종민 김형민 엄소은 이승연 조찬형 최윤서
team A : 전재현 김채은 이재우 장준혁 조수연 한예림
Presentation PDF
Presentation Youtube
- Analysis
Feature_Importance_accordingToScoreImprovement
: Worksheet 채점결과 기반의 score의 증가분에 큰 영향을 준 features 선택(LinearReg/Ensemble)Is_worksheet_better_than_workbook_.ipynb
: Worksheet을 위주로 공부한 그룹과 Workbook을 위주로 공부한 그룹의 Score 비교Rate_of_improvement_by_student.ipynb
: 학생별 실력 향상 정도 분석
- Dashboard
student_academy_score_analysis.twb
: 전처리한 pivot table로 기간별, 학원별 분석
- Preprocess
Preprocess_FinalPivotTable.ipynb
: 연도별, 분기별, 과목별 누적 score와 학원 등급에 대한 pivot table 생성Preprocess_MergeSQLData.ipynb
: Database에서 현재 운영중인 학원을 대상으로 고3 학생과 관련된 모든 테이블 병합후 scoring 진행Preprocess_MergeWorksheet.ipynb
: worksheet과 관련된 모든 feature를 하나의 Dataframe으로 merge 후 csv 파일로 저장Preprocess_WorksheetFeatureAndScore.ipynb
: worksheet의 여러 features(문제수,난이도,교육과정순서,문제유형) 및 score지표 증가분 추출
- Clustering
deriv_clustering_pca.ipynb
: 미적분 과목 Clustering을 통해 학생 분석su1_clustering_pca.ipynb
: 수학I 과목 Clustering을 통해 학생 분석su2_clustering_pca.ipynb
: 수학II 과목 Clustering을 통해 학생 분석
- NN model
embedding vector extract using CNN model.ipynb
: CNN model을 사용한 과목별 embedding vector 추출
- Data
- 회사 정책 상 공개 불가능
- preprocessing
Refining.ipynb
: 데이터 가공 (학생별/문제유형+난이도 별 정답률 추출 및 과목별 )
- Embedding_NN
embedding_model.ipynb
: 학생, 문제 feature를 바탕으로 문제를 해당 학생이 맞출 확률값을 도출하는 embedding 모델 구현embedding_dataset.sql
: Database에서 Worksheet problem 기준으로 고3 학생 데이터만 추린 테이블 생성하는 sql. 자세한 column은 발표 pdf p.134 참고
- Time_Series_Clustering
merge_data.ipynb
: 프리윌린이 제공한 데이터 중 필요한 table만 선택적으로 병합한 data frame을 csv파일로 저장data_preprocess_final.ipynb
: 병합한 데이터셋을 단원별, 학생별, 문제 난이도별로 구분하여 총 6개의 csv 파일로 저장time_series_clustering_model_final.ipynb
: TimeSeriesScalerMeanVariance를 통한 전처리, 전처리한 데이터에 TimeSeriesKMeans를 수행하고 결과 분석 및 결과 저장