PyData.Tokyo Tutorial & Hackathon #1 参加レポート - りあるふぁいとぷろぐらまー

2015/03/07(土)に渋谷クロスタワーのデンソーアイティーラボラトリで開催されたPyData.Tokyo Tutorial & Hackathon #1に参加してきたので、そのレポートです。

環境構築編

Tutorial & Hackathon #1 - pydatatokyo site

anacondaを使って導入する方法も紹介されてましたが、pipを使いたかった気分だったので、下記で環境構築しました。

Macなので

brew install pyenv
brew install pyenv-virtualenv

インストールリストを確認

pyenv install -l

python3.4.2を導入

pyenv install 3.4.2
pyenv global 3.4.2

あとは必要なライブラリをpip install しようとしたら

pip install ipython[notebook]

で下記のエラーがでたので、軽く調べてみた。

no matches found: ipython[notebook]

依存ライブラリをpip install する必要があったのね。

pip install pyzmq
pip install jinja2
pip install tornado
pip install jsonschema
pip install ipython

下記のコマンドを実行してhttp://localhost:8888/が起動されればOK

ipython notebook

PyData.Tokyoについてシバタアキラさん

PyData.Tokyoの活動内容の紹介etc

下記の本の紹介がされてました。 pythonやデータ解析をやっていく上で、これから参考になるかも。

<a href="http://www.amazon.co.jp/exec/obidos/ASIN/4873116554/hatena-blog-22/">Amazon.co.jp： Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理: Wes McKinney, 小林儀匡, 鈴木宏尚, 瀬戸山雅人, 滝口開資, 野上大介: 本</a>

<a href="http://www.amazon.co.jp/exec/obidos/ASIN/4873116988/hatena-blog-22/">Amazon.co.jp：実践機械学習システム: Willi Richert, Luis Pedro Coelho, 斎藤康毅: 本</a>

<a href="http://www.amazon.co.jp/exec/obidos/ASIN/479804315X/hatena-blog-22/">Amazon.co.jp： Pythonプロフェッショナルプログラミング第2版: ビープラウド: 本</a>

<a href="http://www.amazon.co.jp/exec/obidos/ASIN/482227912X/hatena-blog-22/">Amazon.co.jp：トップデータサイエンティストが教える　データ活用実践教室: 高橋威知郎, 安宅和人, 河本薫, 吉田隆光, 北川拓也, 工藤卓哉, 西山直樹, シバタアキラ: 本</a>

チュートリアル第一部「Data Handling」池内孝啓さん

PyDataTokyoTutorial_DataHandling

Pandasによるデータの読み込み、前処理、集計の方法
maptloblibによるデータの可視化
Pandasとmatplotlibを利用して、今回利用するデータの性質の考察

ちょろっと紹介されたhttp://nbviewer.ipython.org/のmatplotlibのグラフがかっこいい。
前処理大事なんだろうなぁっていうところがちょこっとわかった気がしました。
前処理のスペシャリストを前処理ストというらしい

チュートリアル第二部「Machine Learning」田中秀樹さん

pydatatokyo_tutorial_ml

ライブラリのインポートとデータの準備
ジェンダーモデルによる生存者推定、推定値の評価
ロジスティック回帰による生存者推定
交差検証（クロスバリデーション）
決定木（Decision Tree）による生存者推定
グリッドサーチ

過学習あたりから理解度が怪しくなってきたので、もう一度見直す必要ありっすね。

トレーニングデータと同様に、Kaggleに投稿するテストデータからも生存者を推定する所の演習問題の回答は下記

x_test = df_test['Sex']
y_test_pred = x_test.map({'female': 1, 'male': 0}).astype(int)

Kaggle初投稿には感動を覚えた。

懇親会

そこそこセミナーや勉強会に行ってるのに、初のビール&ピザのビアバッシュ
ゆるい雰囲気の中、ハッカソン組のプレゼンを聞けて、勉強になりました
チュートリアルで簡単にAccuracyを出してましたが、自力じゃ絶対無理だなと再認識

雑感

バージョン違いとかで苦しんでた人がいたみたいなので、環境構築ちゃんとやっといてよかったぁ
ipython便利や
セキココよかった。誰がどこに座っているのかがわかるし、話しかけやすかったです
エンジニア以外にも学生・院生・研究者の方が多くて面白かったです
コレをきっかけにして、python/機械学習を勉強していきたい

おまけ

会場のデンソーアイティーラボラトリのオフィスが面白かったので、何枚か撮ってきました。

f:id:RealFightProgrammer:20150309015803j:plain

環境構築編

PyData.Tokyoについて シバタ アキラさん

チュートリアル第一部「Data Handling」池内 孝啓さん

チュートリアル第二部「Machine Learning」田中 秀樹さん

懇親会

雑感

おまけ

PyData.Tokyoについてシバタアキラさん

チュートリアル第一部「Data Handling」池内孝啓さん

チュートリアル第二部「Machine Learning」田中秀樹さん