しゃちの備忘録

これからC++を始める人によるC++の備忘録です(今のところ)

kaggleについて

Kaggleの勉強会に参加することになったので,最低限の知識をつけるため書いていきます. コンペ参加までの流れを確認します. チュートリアルに実際に挑む話はまた今度.

Kaggleとは

データ分析の勉強やコンペが行われているサイトです. 分析内容やデータは様々で,それらに対し最適なモデルは何かを探り提出することで,分析の制度を競います. 中には賞金が絡んだものもあるらしいです,すごい.

大事なのは最適なモデルは何か,というところなので, 競技の環境は様々です. 例えば,PythonやRや,Excelなどでもいいようです.

世界中の人が挑んでいるデータ分析の課題が集まっているがKaggleなので, それだけでやってみる価値はあるのではないでしょうか?

Kaggleを始める

Keggleを始めるためには,Kaggleのアカウントを作らねばなりません.

www.kaggle.com このリンクからアカウント作成ができます.(既に持っている人は割愛,右上のlog inから) f:id:teru0rc4:20170726162248p:plain

ここからユーザIDやユーザネームやメールアドレスを登録,すると登録したメールアドレスに確認のメールが届くので,「activate」をクリックすると登録は完了です. f:id:teru0rc4:20170726162751p:plain

分析問題に挑む

Kaggleのアカウントが作れたので,続いて実際の課題に挑むところまでやってみたいと思います.

log inした状態でKaggle(https://www.kaggle.com)にアクセスすると以下の画面になると思います. この状態で上のバーから「Competitions」をクリックします. f:id:teru0rc4:20170726165638p:plain

するとこのように今行われているコンペの一覧が出て来ます(下にスクロールすると大量に出て来ます.) f:id:teru0rc4:20170726170007p:plain

ページの見方

これがコンペのページです. いろんなタブがあるのでざっくり解説します. f:id:teru0rc4:20170726170206p:plain

タブ名 機能
Overview コンテストの概要が書いてあります.
Description,Evaluation,Prizes,Timelineなど.
Data コンペで使用するデータセットです.
Kernels コンペごとに設けられたそのコンペに関する記事です.
誰かが挑んだ分析方法やその結果などがのってたりします.
Discussion コンペに関する議論の場です.
Leaderboard スコアボードです.順位等々が確認できます.
Rules より詳しいルールです.
Team コンペ参加後に追加される項目,自身所属するチームの情報などが載ってます.

チュートリアルに挑む

今回はチュートリアルであるTitanic: Machine Learning from Disaster(https://www.kaggle.com/c/titanic)に挑んでみたいと思います. 上で示した画像は同コンペの画面になります(Overviewの中身が多少違うのは賞金がかかったものではないためだと思われます)

上でも示した通り,私が挑んだ話はまた今度. DataタブのTutorialsの項目にはPython, R, Excelで挑んだ人が書いた手順書のようなものがあります. それを参考に識別器を作りましょう.

おわりに

雑に情報をまとめて見ました. 本当は並列して挑んでいてそこまで書こうかなと思ったのですが,長くなりそうなので分割です. ちなみに自分はPythonで挑んでます.