Jupyterを用いたデータ分析環境づくり
PythonのJupyterを使ったデータ分析環境の完成を目指します.
Python側の準備
Pythonでデータ分析をする上で便利な(必須 ?)なパッケージを入れて行きます.
いらないものは,インストールしなければいいと思います.
今後の説明では,jupyterの話をするので最低限pip3 install jupyter
してもらえれば,いいと思います.
パッケージ名 | 用途 |
---|---|
numpy | 多次元配列や行列用の数学関数ライブラリ これを使うことでPythonが本来苦手な大量のデータの取り扱いを高速に行えるようになる |
pandas | データ解析のために使用するライブラリ データはこれで扱うことが多い(?) |
scikit-learn | 機械学習用ライブラリ 識別の要 |
jupyter | 実行内容と結果を丸々記録できるツール 必須ではないが実行内容とメモなどを併用して取れるのであるととても便利 |
$ pip3 install numpy $ pip3 install pandas $ pip3 install scikit-learn $ pip3 install jupyter
jupyter notebookについて
先にあげた3つは実際の処理や計算に直結する部分なのでその時々に解説するつもりですが, Jupyterは環境そのもの(?)なので今ここで説明しておきます.
まずは適当なディレクトリを作成し,そのディレクトリ直下でjupyter notebook
と入力します.
$ jupyter notebook
するといくつかメッセージが流れブラウザが自動的に立ち上がると思います.
もし立ち上がらなければ,流れたメッセージの中からThe Jupyter Notebook is running at: **********
のようなアドレスを見つけ出し,そのアドレスを開いてあげてください.
通常ここには,jupyter notebook
を入力したディレクトリの中身が表示されます(今回はからのディレクトリを作成したのでこんな感じになっています).
ここで作業をするのですが,jupyterではノートブックという形式でソースコードや,その解説,結果などをまるっと保存します.
なのでノートブックの作り方を解説して行きたいと思います.
ノートブックを作って作業する
右上のnew
をクリックすると,Python3
と出てきます.(2系の人はpython2
??)
これをクリックしてあげます.
すると…!!
これでノートブックは作成されました.
あとはIn
と書かれた部分にPython のコードを打ち込んであげるだけです.
このln
がついてハイライトされた枠をセルと呼ぶらしいです.
特定のセルを選択しハイライトされた状態でCtrl
+enter
をすると,今現在のセルに打ち込んだ内容を実行することができます.
shift
+enter
をするとセルの追加もできます.
セルを適度に区切ってやることで,ここまででこんな感じになっている.というのを実行結果ごと保存できるのがjupyterの強みです.
さらに,上のタブからcode
をクリックし,出てくるメニューからMarkdown
を選ぶと…,
セルにマークダウンの記法が入力できるモードになり,shift
+enter
をすると,
マークダウンの記法に従った文章がノートブックに追加されます.
コードを書き,その解説などをマークダウンの記法で綺麗にまとめることが簡単にできます.
ちなみに新規のノートブックを立ち上げた際,Python3
を選んだ理由ですが,
他の言語を指定することもできるからのようです(詳しくは知りません…).
もともとは ipython notebook
をなのっていたのですが,他の言語に対応した際,
Jupiter notebook
に名前を変えたらしいです.
ノートブックを保存/jupyterを停止する
ノートブックの保存は上のバーのFile
の中のSave and Checkpoint
からすることができます.
オートセーブの設定になっていれば自動的にUntitled.ipynb
という名前で保存されていると思います.
リネームは対象のノートブックを開いてFile
の中のRename
でできます.
今回はsample.ipynb
という名前にしました.
保存していれば,最初の画面でsample.ipynb
が追加されているのが確認できると思います.
終了したい場合,
ブラウザのページは閉じてあげて問題ないです.
jupyterを起動したターミナル上でCtrl
+C
をしてあげて,
jupyterを停止してあげれば終了は完了です.
過去のノートブックを開く
開きたいノートブックがあるディレクトリで,jupyter notebook
としてやり,
上と同じように,The Jupyter Notebook is running at: **********
で示されたアドレスを開くとファイル一覧にノートブックの名前があるので,
それをひらけば過去の状態をそのままに,追記や編集ができます
https://utano.jp/entry/2016/01/jupyter-ipython-notebook-install/
おわりに
Jupyterのあれこれをまとめました
これを書いた目的は, KaggleのチュートリアルであるTitanic: Machine Learning from Disaster(https://www.kaggle.com/c/titanic)に挑むまでの準備の際に, Jupyterを準備したということに由来してます. それはまた次回書きます.(いつになるかな…)