Skip to content

theo-kyubong/KMA2018

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KMA2018

2018 기상청 '날씨 빅데이터 콘테스트'

대회 개요

기상과 타분야의 융합 분석을 통한 기상기후 빅데이터의 새로운 가치 발굴과 활용 분야 확대, 관련 신규 산업 창출 기회 제공

분석 주제

우리나라 기상 데이터를 활용한 북한의 태양광 발전 지역 추천모델 개발

분석 내용

  • 북한이 세계기상기구(WMO)에 기상통신망을 통해 제공하는 자료로 기온, 강수량, 바람, 습도, 구름, 해면기압, 현재일기 (일사량 정보 부재) 로 구성된 북한기상관측 데이터 확보(27개 지점자료가 3시간 간격으로 기록)
  • 우리나라의 경우 기상청의 '기상자료개방포털'을 통해, 일사량을 포함한 모든 기상 요소들의 관측 데이터 확보
  • 기온, 강수량, 바람, 습도, 구름 변수로 '일사량'을 예측하는 학습 모델을 우리나라 데이터로 마련

    이 모델을 북한 기상 데이터셋에 적용해 관측소별 예상 일사량을 산출

  • 한국서부발전 태양광 발전 현황을 통해, 세종시 태양광 발전소의 일일 전력 생산량 데이터 확보
  • 대전의 일사량, 기온, 강수량, 바람, 습도, 구름 변수로 '일일 전력 생산량'을 예측하는 학습 모델 마련

    이 모델을 일사량이 포함된 북한 기상 데이터셋에 적용해 관측소 지역별 예상 태양광 전력 생산량 산출

  • 예상 태양광 전력 생산량을 바탕으로, 북한의 27개 관측소 지역 중 태양광 인프라 구축에 적합한 후보군 제시

활용 기법

  • Linear Regression

    종속 변수와 독립 변수들 간 선형적 관계를 바 탕으로 모델링을 진행하는 기법으로, 적절한 성능과 높은 해석력을 가짐. 우리나라 합계 일사와 다른 주요 기상요소, 일일 발전량은 선형적인 관계로 모델링할 수 있다고 판단.

  • Random Forest

    다수의 의사결정나무를 만들고 예측값들을 조합하여 정밀도가 높은 앙상블(Ensemble)기법으로,
    동일한 하나의 데이터 집합에서 임의 복원 샘플링과 학습을 여러번 수행 후 각 예측결과를 종합하여 도출.
    복잡한 비선형 상관관계와 상호작용 효과 표현이 가능하고, 다른 분석기법에 비해 예측 안정성과 정확도가 높은 특징을 가짐.

  • Boosting

    랜덤 포레스트와 비슷하나 나무 생성 시 더 높은 무작위성과 단순함을 가짐. 전체 데이터에서 여러 샘플링 데이터를 추출하여 순차적으로 이전 학습 분류기의 결과를 토대로 다음 학습 데이터의 샘플 가중치를 조정하면서 학습을 진행. 다음 단계의 weak classifier가 이전 단계의 weak classifier의 영향을 받음. 즉, 이전의 classifier의 양상을 보고 보다 잘 맞출 수 있는 방향으로 다음 단계를 진행하고 각 classifier의 weight를 업데이트.

  • 활용된 R packages

    ggplot2, gbm, rf

후기

  • 분석 주제를 자체적으로 설정하고, 필요한 데이터셋을 확보하는 과정 경험
  • 주제와 연관된 기상청과 관련 단체의 선행연구의 참고
  • 논리적인 데이터 내 결측치 처리와 파생변수 생성
  • 데이터 분석 비전문가를 고려한 보고서 작성(분석 배경 - 활용 데이터 - EDA - 학습모델별 성능비교 - 북한지역 적용 결과)
  • 분석 알고리즘의 이론적 배경 복습
  • 산출된 북한의 예상 일사량, 전력량을 검증할 실제 데이터 부재의 한계
  • 상업적 가치 창출의 어려움

보고서 내용 및 코드

Releases

No releases published

Packages

No packages published

Languages