DISTRICT 37

なにか

災いの書「アラビアの夜の種族」

きっと僕も夜の種族になってしまったのだと思う。

アラビアの夜の種族〈1〉 (角川文庫)

アラビアの夜の種族〈1〉 (角川文庫)

アラビアの夜の種族〈2〉 (角川文庫)

アラビアの夜の種族〈2〉 (角川文庫)

アラビアの夜の種族 III (角川文庫)

アラビアの夜の種族 III (角川文庫)

カイロ陥落前夜

舞台はナポレオンによるエジプト陥落前夜となる。ナポレオンによってカイロが占領される事を予見したエジプトのベイ(知事)はなんとかそれを回避しようと自らのマムルーク(奴隷)に策を求める。出された案は読むものを破滅に追い込むと呼ばれる「災いの書」の献上。本の虫で知られるナポレオンに献上することで自滅の道を歩み、カイロは救われるであろうと。これは「災いの書」をめぐる夜の種族による物語であり、本の虫たちの物語。

予習は必要ない

「アラビアの夜の種族」はスゴ本 【徹夜保証】: わたしが知らないスゴ本は、きっとあなたが読んでいる

この通り、予習はしないほうがいい。ただ、アラブ文化圏になじみがない場合に世界観が知りたいというのであれば、やっぱりアラジンかなぁ。

アラジン スペシャル・エディション [DVD]

アラジン スペシャル・エディション [DVD]

時代は全然違うけど、アラビアのロレンスも悪くない。

夜の種族

物語は災いの書を語るという形式で進んでいく。その語り部は夜の種族と呼ばれる者で毎夜毎晩、物語を語っていく。まさに千夜一夜物語アラビアンナイトが夜の種族によって紡がれている。

ハリーポッターに代表される西洋的なファンタジーも魅力的だが、アラブ文化圏におけるファンタジーもまた魅力だった。3冊ある文庫で早く読み終えたいという感情と、読み終わりたくないという感情が入る物語は久しぶりだった。僕はこの本を貪るように夜に読んでいて、幾晩も過ごした。きっと僕自身も夜の種族になってしまったのだと思う。

RMeCabFreqをPythonでやりたい

MeCabはRから入ったので、pythonでも同じように処理をしたいなと。ということでタイトルの通り

RMeCabFreqって何

pythonMeCabを扱っていて、こういうオブジェクトが欲しかった。

Term Info1 Info2 Freq
アメリカ 名詞 固有名詞 36
皆さん 名詞 一般 19
名詞 一般 18
国民 名詞 一般 12
名詞 一般 10

RのRMeCabというライブラリなら一撃でできるけど、pythonならば1から作らないとということになった。せっかくならばpythonだしpandas形式になってたらいいなということでできたのがコチラとなるが、なんか遅い。どこに原因があるのかなぁ、、、

トランプ大統領演説を分析する

で、サンプルとしてやったのが、トランプ大統領の就任演説の日本語版から。

www.huffingtonpost.jp

結果はpandasなので、こんな感じで抜き出せる。

mdf[(mdf.Info1 == '名詞') & (mdf.Info2.isin(['一般','固有名詞'])) & (mdf.Freq >= 10)].sort_values(by=['Freq'], ascending=False)

この結果が、最初に出した表で、最頻出した名詞はやはりアメリカだったという結果が得られる。大統領就任演説だけあって、自分の国と国民について語るというのは当然といえば当然。

5月が一番いい6つの理由

8月が一番だと思っていたけど好きなのは5月だな。

  • 休みが多い
  • 暑い
  • 涼しい
  • 虫がいない
  • やる気に溢れてる
  • ボーナス直前

休みが多い

言わずと知れたGWから始まるのが5月。4月の末から繋げれば、長い休みを取れるというのがサイコー。ガス欠を起こすこともあるが、なんだかんだで大丈夫。

暑い

ついこの間までコートを着ていたのに、5月に入った途端に半袖になれる。かといって汗でビショビショになるほどではなく、ちょうどいい暑さだ。 もっといえば半ズボンにもなれる。着るものは軽い方がいい。

涼しい

とはいえ、夕方から夜にかけては涼しい。でもコートが必要かといえばいらない涼しさ。半袖でも我慢はできるくらい。コートさえあればいい冬と、半袖半ズボンでも死なない夏に比べて、装備に悩む難しい季節ではある。

虫がいない

全くいない訳ではないが、5月は不快な虫が少ない。蚊とか蚊とか、あとは蚊とか。もちろんGの野郎も少ない。この時期に動き始めるのはアリとか、ダンゴムシとかの微笑ましい虫で、羽虫はもう少し後で顔を出してくる。

やる気に溢れてる

4月から新しい生活が始まる人は多い。現状維持であっても4月から本気出すという気持ちになる事も多いかと。GWでその気力を削がれる事も往々にしてあるが、8月の休み明けに比べて、5月のリハビリは軽い。それはやる気に溢れてるからだ。

ボーナス直前

6月の大きなイベントといえば、そう、ボーナスだ。GWに散財してしまっても回復イベントがすぐに来ると言うのも5月ならではだ。

という事で5月が好き

matplotlibで2軸グラフを作る

一つのグラフに複数のグラフを描くのと、評価の違う軸を合わせて描く

twinx()

これを使うだけでX軸を共有できる

twiny()

twinxがあるってことはtwinyもある

y軸が共有できたのがわかる

RapidMinerを試す

PythonとかRとかで頑張ってきたのに、こんなに簡単にできるなんて、今から始める人が羨ましい

インストール

rapidminer.com

ここからDownloadへ進んで、対象のOSにあったファイルをダウンロードする。今のところWin(32、64)、MacLinuxが対応しているので迷う事は無い。Linuxの場合はJava8が必要なので、インストールしていない場合は別途インストールする必要がある。

Installing RapidMiner Studio - RapidMiner Documentation

インストール時にメールアドレスとか電話番号とか入れてユーザ登録的な事が必要で、使用したメールアドレス宛てに承認メールが届き、それから使用可能になる。

チュートリアル

起動すると、チュートリアルを始める事ができる親切設計。やりたいことがすでにあって、ガシガシやりたい人には邪魔にも思えるが、それとなく使い方を覚える事ができるのでこれから始めるのがおすすめ。

基本的な使い方としてはデータの準備 → 前処理 → 分析手法の選択 → 結果の確認といつもやっていることを線でつないで、分析を進めていくことになる。結果は自動的にグラフが作成されたりと至れり尽くせりなことが使って数分でわかる。MicrosoftAzureとかのクラウド分析サービスをすでに使っている方にはおなじみのあれだ。

これが f:id:dragstarclassic:20170227113237p:plain

こうなるのじゃ f:id:dragstarclassic:20170227113013p:plain

あとはデータの自動視覚化とか f:id:dragstarclassic:20170227113100p:plain

サンプル

サンプルデータとしてあらかじめ「俺たちのiris」や「タイタニック」といくつかそろっているので、今までやってきた分析手法をこれで試してみるのもいい。さらに分析プロセス自体のサンプルもいくつかそろっているのでそれを眺めて、RapidMinerではこうやるのかと眺めてみるのも楽しい。

f:id:dragstarclassic:20170227101636p:plain

学習工程が短縮?

今までRやPythonで頑張って覚えてきたコマンドやスクリプトはあらかたそろっている。線をつなぐだけでそれが実現できるのだからまさにRapid。ただし、プログラミングならではの自由な処理はできないので、それは適材適所という事で使い分ける事が必要になるのかと。

f:id:dragstarclassic:20170227101242p:plain

と、ソフトを眺めていたらこんなOperatorもあったので、ある程度はプログラムを使って処理の補助ができるのかもしれない。まぁ無理してプログラムをねじ込む必要もないのですが。

とはいえ色々な分析手法があったとして、その意味を知るにはやはり何かしらの学習が必要なわけで、ノー勉強で分析ができるようになるわけではない。Rapidに分析を進めるツールとしてこれはとても秀逸だといえるのでしばらく使っていこうかと思った。