kaggleについて
Kaggleの勉強会に参加することになったので,最低限の知識をつけるため書いていきます. コンペ参加までの流れを確認します. チュートリアルに実際に挑む話はまた今度.
Kaggleとは
データ分析の勉強やコンペが行われているサイトです. 分析内容やデータは様々で,それらに対し最適なモデルは何かを探り提出することで,分析の制度を競います. 中には賞金が絡んだものもあるらしいです,すごい.
大事なのは最適なモデルは何か,というところなので, 競技の環境は様々です. 例えば,PythonやRや,Excelなどでもいいようです.
世界中の人が挑んでいるデータ分析の課題が集まっているがKaggleなので, それだけでやってみる価値はあるのではないでしょうか?
Kaggleを始める
Keggleを始めるためには,Kaggleのアカウントを作らねばなりません.
www.kaggle.com このリンクからアカウント作成ができます.(既に持っている人は割愛,右上のlog inから)
ここからユーザIDやユーザネームやメールアドレスを登録,すると登録したメールアドレスに確認のメールが届くので,「activate」をクリックすると登録は完了です.
分析問題に挑む
Kaggleのアカウントが作れたので,続いて実際の課題に挑むところまでやってみたいと思います.
log inした状態でKaggle(https://www.kaggle.com)にアクセスすると以下の画面になると思います. この状態で上のバーから「Competitions」をクリックします.
するとこのように今行われているコンペの一覧が出て来ます(下にスクロールすると大量に出て来ます.)
ページの見方
これがコンペのページです. いろんなタブがあるのでざっくり解説します.
タブ名 | 機能 |
---|---|
Overview | コンテストの概要が書いてあります. Description,Evaluation,Prizes,Timelineなど. |
Data | コンペで使用するデータセットです. |
Kernels | コンペごとに設けられたそのコンペに関する記事です. 誰かが挑んだ分析方法やその結果などがのってたりします. |
Discussion | コンペに関する議論の場です. |
Leaderboard | スコアボードです.順位等々が確認できます. |
Rules | より詳しいルールです. |
Team | コンペ参加後に追加される項目,自身所属するチームの情報などが載ってます. |
チュートリアルに挑む
今回はチュートリアルであるTitanic: Machine Learning from Disaster(https://www.kaggle.com/c/titanic)に挑んでみたいと思います. 上で示した画像は同コンペの画面になります(Overviewの中身が多少違うのは賞金がかかったものではないためだと思われます)
上でも示した通り,私が挑んだ話はまた今度. DataタブのTutorialsの項目にはPython, R, Excelで挑んだ人が書いた手順書のようなものがあります. それを参考に識別器を作りましょう.
おわりに
雑に情報をまとめて見ました. 本当は並列して挑んでいてそこまで書こうかなと思ったのですが,長くなりそうなので分割です. ちなみに自分はPythonで挑んでます.