PyData.Tokyo Tutorial & Hackathon #1 参加レポート
2015/03/07(土)に渋谷クロスタワーのデンソーアイティーラボラトリで開催されたPyData.Tokyo Tutorial & Hackathon #1に参加してきたので、そのレポートです。
環境構築編
Tutorial & Hackathon #1 - pydatatokyo site
anacondaを使って導入する方法も紹介されてましたが、pipを使いたかった気分だったので、下記で環境構築しました。
Macなので
brew install pyenv brew install pyenv-virtualenv
インストールリストを確認
pyenv install -l
python3.4.2を導入
pyenv install 3.4.2 pyenv global 3.4.2
あとは必要なライブラリをpip install しようとしたら
pip install ipython[notebook]
で下記のエラーがでたので、軽く調べてみた。
no matches found: ipython[notebook]
依存ライブラリをpip install する必要があったのね。
pip install pyzmq pip install jinja2 pip install tornado pip install jsonschema pip install ipython
下記のコマンドを実行してhttp://localhost:8888/が起動されればOK
ipython notebook
PyData.Tokyoについて シバタ アキラさん
PyData.Tokyoの活動内容の紹介etc
下記の本の紹介がされてました。 pythonやデータ解析をやっていく上で、これから参考になるかも。
チュートリアル第一部「Data Handling」池内 孝啓さん
PyDataTokyoTutorial_DataHandling
- Pandasによるデータの読み込み、前処理、集計の方法
- maptloblibによるデータの可視化
- Pandasとmatplotlibを利用して、今回利用するデータの性質の考察
ちょろっと紹介されたhttp://nbviewer.ipython.org/のmatplotlibのグラフがかっこいい。 前処理大事なんだろうなぁっていうところがちょこっとわかった気がしました。 前処理のスペシャリストを前処理ストというらしい
チュートリアル第二部「Machine Learning」田中 秀樹さん
- ライブラリのインポートとデータの準備
- ジェンダーモデルによる生存者推定、推定値の評価
- ロジスティック回帰による生存者推定
- 交差検証(クロスバリデーション)
- 決定木(Decision Tree)による生存者推定
- グリッドサーチ
過学習あたりから理解度が怪しくなってきたので、もう一度見直す必要ありっすね。
トレーニングデータと同様に、Kaggleに投稿するテストデータからも生存者を推定する所の演習問題の回答は下記
x_test = df_test['Sex'] y_test_pred = x_test.map({'female': 1, 'male': 0}).astype(int)
Kaggle初投稿には感動を覚えた。
懇親会
- そこそこセミナーや勉強会に行ってるのに、初のビール&ピザのビアバッシュ
- ゆるい雰囲気の中、ハッカソン組のプレゼンを聞けて、勉強になりました
- チュートリアルで簡単にAccuracyを出してましたが、自力じゃ絶対無理だなと再認識
雑感
- バージョン違いとかで苦しんでた人がいたみたいなので、環境構築ちゃんとやっといてよかったぁ
- ipython便利や
- セキココよかった。誰がどこに座っているのかがわかるし、話しかけやすかったです
- エンジニア以外にも学生・院生・研究者の方が多くて面白かったです
- コレをきっかけにして、python/機械学習を勉強していきたい
おまけ
会場のデンソーアイティーラボラトリのオフィスが面白かったので、何枚か撮ってきました。