데이터 분석 및 머신러닝 학습 장소 kaggle 소개

 ■ Kaggle 소개


kagle


 4차 산업혁명 시대라는 요즘 데이터 분석 및 인공지능에 대한 관심이 엄청나게 증가했습니다. 그리고 우리가 살아가면서 해당 분야에 대한 관심은 더욱 커질 것입니다. 우리의 일상에 이미 인공지능이 녹아들고 있습니다. 특히 통신사들의 생활 속 인공지능 플랫폼이 대표적인 예시 입니다. 그러나 아직까지 인공지능이라는 분야에 대한 정확한 이해를 하는데 어려움이 있는 것도 사실입니다.  물론 인공지능을 이해하기 위해서는 다양한 분야에 대한 학습이 필요합니다. 통계, 프로그래밍, 해당 분야의 도메인 지식 등 많은 학습이 필요합니다. 그러나 최근 많은 교육 매체들이 등장하면서 과거에 비해 수월하게 인공지능 학습에 접근할 수 있는 방법들이 생기고 있습니다. 물론 인공지능을 이해하고 응용하기 위해서는 많은 학습이 필요합니다. 그래도 비교적 효율적으로 데이터 사이언스와 머신 러닝을 공부할 수 있는 사이트인 Kaggle를 소개합니다. 


 ■ Kaggle 공모전


kaggle



 국내에서도 많은 곳에서 데이터 분석과 머신러닝에 대한 교육 과정들이 만들어지고 있습니다. 제가 본 것만으로도 카이스트에서 타이타닉 데이터를 바탕으로 교육 과정이 열린 것을 볼 수 있었습니다. 워낙 유명한 주제라서 아시는 분들은 다 아실 것이라고 생각됩니다. 타이타닉 사고에서 어떠한 특성을 가진 사람들이 생존했는지, 생존할 당시의 나이, 재산, 티켓의 등급 등 다양한 속성들을 분석해서 생존률이 가장 높은 집단은 어떤 집단인지를 찾아낼 수 있습니다. 우리가 타이타닉이라는 영화를 통해서 본 것처럼 여성, 어린이, 노약자들의 생존률이 성인 남성에 비해 월등히 높은 것을 볼 수 있습니다. 그리고 분석을 통해 놓치고 지나갔던 사실도 있었습니다. 티켓 즉 방의 등급에 따라 생존률의 차이가 엄청나게 나는 것입니다. 1,2등실의 차이는 그렇게 크지 않았습니다. 그러나 3등실의 생존률은 성별에 상관없이 엄청나게 낮아지는 것을 볼 수 있었습니다. 그 이유는 추측을 통해 알 수 있겠지만, 자본주의라는 요소가 크게 작용한 것으로 보입니다. 


 타이타닉은 대표적인 예시를 든 것이고 타이타닉 말고 다양한 공모전이 열리고 있습니다. 장기적인 공모전, 단기적인 공모전도 있습니다. 그리고 다양한 공모전에는 상금이 걸리고, 우수한 알고리즘의 결과물은 공유가 되어 따라하면서 학습할 수도 있습니다. 그리고 나의 알고리즘이 어느 정도의 수준인지도 해당 사이트에 올리면 평가 기준에 따라 결정됩니다. 가장 중요한 데이터 셋이 무상으로 제공 되는 점이 매우 매력적인 사이트 입니다. 저는 부동산 데이터셋을 주제로 한 공모전을 선택해서 학습하고 있습니다. 해당 사이트에 보시면 데이터셋과 데이터 셋에 대한 설명이 매우 자세히 나와있습니다. 그러나 해당 도메인에 대한 이해는 따로 공부를 하셔야 할 것으로 생각됩니다. 



댓글

Designed by JB FACTORY