머신러닝 학습사이트 kaggle 이용 팁
- IT
- 2018. 5. 13. 23:10
■ 데이터 사이언스 학습소 Kaggle
앞 선 포스팅에서 kaggle이라는 데이터 사이언스 학습 사이트를 소개 했습니다. ▲위 그림을 보시면 케글에 대한 간단한 설명이 나옵니다. 케글을 이용하는 방법에 대해 간단히 설명하면, 가장 인기있는 공모전을 통해 게이터를 제공 받고, 그 데이터로 학습을 하는 것입니다. 그 중 가장 유명한 공모전은 타이타닉입니다. 제공 받은 데이터를 바탕으로 다양한 프로그래밍 언어로 예측이나 평가 모델을 만듭니다. 그리고 자신이 만든 모델을 사이트에 올려 평가를 받습니다. 위 사진에서 붉은 상자에 있는 Competitions를 누르면 현재 케글 사이트에서 참가할 수 있는 공모전들이 나옵니다.
■ Kaggle의 공모전
현재 케글 사이트에서 제공하는 공모전들 입니다. 그림에서 제공되는 공모전보다 더 많은 공모전이 진행 중입니다. 첫 번째 파란색 박스에 있는 정보는 해당 공모전의 상금과 참가하고 있는 팀의 숫자입니다. 2,500 달러로 적지않는 상금이 걸려있습니다. 그리고 아래에 파란색 박스에 있는 타이타닉 공모전은 현재 상금은 없습니다. 그러나 초보자들이 머신 러닝을 학습하기에 좋기 때문에 입문 과정으로 많은 분들이 참여하고 있습니다. 현재 11,241팀이 참고하고 있는 것이 확인됩니다. 그리고 저는 주황색 박스에 있는 집값에 대한 공모전에 참가하고 있습니다.
■ Kaggle의 데이터셋 이용 팁
▲ 위에서 보시면 주황색 박스에 있는 Data를 클릭하시면 해당 화면이 나옵니다. 저는 현재 부동산에 대한 공모전을 통해 학습하고 있기 때문에 부동산 부분을 예로 들었습니다. 위에서부터 아래로 천천히 보시면 샘플 데이터, 테스트 데이터, 트레인 데이터가 따로 있습니다. 중간에 있는 주황색 박스 부분에 있는 다운로드를 누르시면 해당 데이터 셋을 다운 받을 수 있습니다. 그리고 맨 아래의 주황색 박스 친 부분은 해당 도메인에서 쓰이는 데이터에 대한 설명입니다. 부동산 데이터 같은 경우에는 변수의 수가 80여개로 많습니다. 데이터 분석을 하려면 해당 속성이 무엇을 뜻하는지에 대한 이해가 필수 입니다. 하나하나 살펴보고, 검색하고, 각각의 속성이 무엇을 설명하는지 사전에 정리할 필요가 있습니다. 부동산 데이터를 정리한 것에 대한 포스팅은 나중에 할 생각입니다.
■ Kaggle의 커널 이용 팁
▲ 캐글의 가장 큰 장점은 다른 사람들이 작성한 코드를 볼 수 있는 것입니다. 첫 번째 박스에 있는 Outputs를 통해 평가 점수, 데이터 파일의 여부 기준으로 다른 사람들의 결과물을 볼 것인가에 대해 결정할 수 있습니다. 그리고 두번 째 박스에는 어떤 언어를 썼는지에 대한 기준입니다. 대부분 R이나 파이썬을 많이 이용하고 있습니다. 그리고 특정 커널을 선택해서 들어가면, 그 사람이 쓴 코드와 설명을 볼 수 있습니다. 그리고 다른 사람들이 작성자에게 질문하고, 작성자의 답이 적힌 것도 볼 수 있습니다. 이용자들끼리 서로 학습할 수 있는 커뮤니티도 제공하는 것입니다. 자세한 커널 이용법과 파이썬에 대한 부분은 추가 포스팅에서 설명하겠습니다.
'IT' 카테고리의 다른 글
다이소 차량용 거치대, c타입 usb (0) | 2018.05.16 |
---|---|
티스토리 애드센스 승인 도전과 구글의 검색과정 (0) | 2018.05.12 |
구글 애드센스 승인과 구글의 검색과정과 웹 크롤링 (0) | 2018.05.10 |
티스토리 구글 애드센스 설정작업 진행 중 (0) | 2018.05.09 |
티스토리 구글 애드센스 승인 도전 (0) | 2018.05.08 |