DISTRICT 37

なにか

Kaggleに挑戦

まえまえからやってみたかった

始め方

とっかかるにあたって、ここを参考にした

qiita.com

今はKaggleのマイナーバージョンアップにより、微妙に違っているところもあるし、これからも変わっていくのだろうけど、まぁ迷わずに進められると思う。

RapidminerでNNET

今回は感触を確かめる意味でもRapidminerのニューラルネットワーク分類を使ってみた。プロセスフローはこんな感じ。

f:id:dragstarclassic:20170725090809p:plain

TrainデータとTestデータを読み込んで、欠損値やらなんやらごちゃごちゃと前処理をしたのち、NNET分類器のモデルにかけて結果を確認。あとはCSVに書き出すと、いわゆるデータ分析のシンプルなフロー。分析のプロセスが簡単すぎて、結果が逆に心配になるレベルで完了する。

結果

結果はスコア0.76077で5501位(2017/07/05時点)。7割の正答率といえば聞こえはいいがこのランキングなので、目標の0.8オーバーまでははるかに遠く、高い壁がある事がわかった。NNETのパラメータをもう少しいじれば変わるのかどうかは試していないのでわからない。しかしスコア1.0とか出している人はなんなんだろう?つまり全問正解って事だろ?本当に分類器つかったのかなぁと疑問になる。次はちゃんとpythonとかつかってやってみてスコアを出してみようかと思う。もし今回出したこのスコアより低いとなるとまだまだ甘いんだなと思い知らされることになるだろう。

お楽しみはこれから

Kaggleを眺めていて何よりも楽しいのは「ほかの人はどうやったんだろう」というのが見ることができることだ。「Kernels」というのがそれで、実際にコードが確認できる。pythonだったりRだったりとそれぞれだが、思考のプロセスやコードのテクニックなんかを見ることができて、これを写経するだけでも本当に参考になる。rapidminerみたいなのはコードを書いていないから投稿できないんだろうなぁ、、、すまねぇ、、ずるしてしまって、、、

「Discussion」では任意に投稿できる掲示板のようになっており、なんかアイデアとか出し合ったりというのを期待していたのだけど、メン募みたいなスレッドが乱立しているのが残念。タイタニックのCompetitionにかぎりだろうか?

他にも懸賞金がかけられているCompetitionがあり、1万ドルから100万ドルのものまである。データ分析はまだまだ夢が広がる分野なんだなぁと実感させられる。