DISTRICT 37

なにか

RからMySQLにつなげる

データをDBからとってきてRで分析がしたい

インストール

僕の場合、別途debパッケージが必要だったのでそれを先にやっておく

sudo apt install libmariadb-client-lgpl-dev

続いてRのパッケージをインストール

install.packages(c("DBI", "RMySQL"))

RからMySQLにつなげる

とっても簡単。

戻り値はdata.frameとなる。あとは煮るなり焼くなり

Ubuntu16でapt updateするとhashsumエラーが出る

普段使っているUbuntu15が2016/7/28でサポート切れしていた。ということでUbuntu16をこれからは使っていこうかと。LTSだし。

apt updateができない

Ubuntu16のインストールまではさっくり終わったのだが、apt updateするとハッシュサムがあわないから更新しなかったよというメッセージを受け取った。これでは使えないではないか!ということで調査の旅に出たわけだが、どうやらバグだということまでは分かった。このバグがフィックスされたとしてどうやって適用したらいいのだろうか?頼みのaptが死んでいるのに、、、

apt.confを編集

askubuntu.com

askubuntuで解決策を見つけた。どうやらプロキシ関連のバグという事なので、apt.confにプロキシの設定をちょっと入れるだけで解決するとの事。

/etc/apt/apt.conf

Acquire::http::No-Cache true;
Acquire::http::Pipeline-Depth 0;

この後にapt updateしたら通った。apt upgradeをしてみたら300近く更新が見つかった。ということで、これで解決。いつもの環境にするのに時間がかかるんだろうなぁ。

irisのデータセットをpandasで使う

タイトルまんまで

irisをpandasで使いたい

pythonのscikit-leanにはいくつかデータセットがあり、俺たちのirisももちろん用意されている。ただそれをpandasで使いたいんや。

pandas先生は自動的にいろいろやってくれる上、その後の加工にも便利。機械学習界隈でなんか新しい技術を見かけたらRにしろpythonにしろirisでやってみるというのがセオリーかと。

医療を疑え 代替医療のトリック

サイモン・シンによるシンプソンズ関連の本が出るときいてワクワクだったけど、そういえばこれを未読だったことを思い出した。サイモン・シンファンの風上にも置けないな。

代替医療のトリック

代替医療のトリック

目次

第1章 いかにして真実を突き止めるか
第2章 鍼の真実
第3章 ホメオパシーの真実
第4章 カイロプラクティックの真実
第5章 ハーブ療法の真実
第6章 真実は重要か?

代替医療プラセボである

代替医療臨床医学の見地からそれぞれ批判していくスタイルで本は進む。しかし、どの代替医療にしても効果が見られていてもプラセボ以上のものでは無いとまでしている。鍼や、カイロプラクティック、そしてハーブも何かしらの効果はあると思っていたのだが、その効果も本書ではプラセボだよと喝破する。

僕からしたらこれらの代替医療は補助的な効果を期待していたのだけど、施術する方としては万能医術として施しているのだとは思わなかった。鍼やカイロプラクティックなら、肩こりとか腰痛とかその辺の治療には効きそうなものだが、風邪にも効きますとか、内臓疾患にも効きますとかとか言われたらそら眉唾だろうと思いそうなものだが、日本とその他の国では意識に違いがあるのだろうか?

プラセボは悪か

コラーゲンを多く含む食事を前にしてプルプル~と言っている人をよく見かけるが、そんな時にただのタンパク質だよ、コラーゲンを食べても希望しているコラーゲンにはならないよと口に出して言いたくても、そこはぐっとこらえる。それは野暮だからだ。しかしプラセボによって効果がもしかして出るのでは?とちょっと思う。これがコラーゲンになるかならないかぐらいならかわいいものだが、こと医療に対してはなんとも躊躇してしまう。だが「病は気から」ともいい、患者に期待を持たせる事はいいのではないだろうか。本書の中でも「祈りは効果ある」と非科学的な事を持ち出すぐらいなので、プラセボの効果を完全には否定していない。

ホメオパシーへの徹底的な批判

第3章でふれながらもそれ以降でも折に触れてホメオパシーをくさしている。他の代替医療の話題をしながらもホメオパシーを引き合いに出して批判する姿は恨みでもあるのかと思うくらいだ。こればっかりは救いようも無いくらいインチキだと確信しているからなのだろう。何らかの成分を何万分の1に希釈したレメディを薬だと出されたら、効果はまったく期待できないと思うだろう。脱水症状には効くという皮肉がとても面白い。

代替医療に力を入れるチャールズ皇太子に対して、扉でチャールズ皇太子にささぐと書くなんてよっぽどの警鐘を鳴らしたいのだと思った。

サイモンシンにはずれなし

とにかくこの人の本は面白い。シンプソンズの本もきっと期待を裏切らないだろう。

それにしても「ビッグバン宇宙論」から「宇宙創成」に変わったようにこの本も文庫本になると「代替医療解剖」に代わる。出版界ではよくある話なんだろうか?

代替医療解剖 (新潮文庫)

代替医療解剖 (新潮文庫)

ビッグバン宇宙論 (上)

ビッグバン宇宙論 (上)

宇宙創成〈上〉 (新潮文庫)

宇宙創成〈上〉 (新潮文庫)

Scrapyチュートリアル

インストール

前回記事より。 dragstar.hatenablog.com

プロジェクトの作成

まずはプロジェクトを作る

scrapy startproject tutorial

ツリー構成はこんな感じ

tutorial/
├── tutorial
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       └── __init__.py
└── scrapy.cfg

一番上のディレクトリをホームとする

Itemの作成

スクレイピングした結果をItemクラスに保持することになる。items.pyにItemを定義する。

# items.py
import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

どういった情報を保持していくか、用途に合わせて項目を定義していく。

Spiderの作成

実際にスクレイピングをしてくれるSpiderを作る。処理の中でItemにデータを入れるのを忘れずに

# spiders.py
import scrapy
from scrapy.selector import Selector
from tutorial.items import MyItem

class MySpider(BaseSpider):
    name = "MySpider" #spiderに名前を付ける。実行時に使う
    allowed_domains = ["test.com"]
    start_urls = [
        "http://www.test.com/foo/bar"
    ]

    def parse(self, response):
        item = MyItem() 
        sel = Selector(response)

        ## この辺でスクレイピング処理を書いていく
        item['title'] = sel.xpath('//html/head/title/text()').extract()
        item['link'] = sel.xpath('//a/@href').extract()
        yeild item

コツとしてはFirefoxとかで対象サイトの要素をあらかじめ見ておくと希望するものにたどり着きやすい。よっぽどのサイトでなければCSSとかちゃんとやってるのでクラス指定とかID指定とかするとよりいい感じで取得できる。

shell

scrapy shellを動かして試しながらの使い方がおすすめ。xpathの使い方に慣れることができる。また、Itemにどんな感じで帰ってくるかも確認できるのでその後のpipeline作成にも役に立つ。

scrapy shell "http://www.test.com"

Pipelineの作成

スクレイピングした結果を料理するのがPipeline

# pipelines.py
class MyPipeline(object):
    def process_item(self, item, spider):
        # Spiderが実行されてitemに格納されるのでitemをDBにいれるなりなんなり
        t = item['title']
        link_list = item['link'] # listで帰ってくると仮定
        for l in link_list:
            print(l)

        return item

パイプラインを有効にするにはsettings.pyを変える。コメントアウトされているので外して、作ったpipelineを指定する

# settings.py
ITEM_PIPELINES = {
    'tutorial.pipelines.MyPipeline': 300,
}

jsonとかで出力できるので、必要なければpipelineはなくてもいい。

実行

例は実行して結果をjson形式に出力するコマンド

scrapy crawl MySpider -o output.json

CSVで出力するコマンド

scrapy crawl MySpider -o output.json

CSVに出力するやりかた。拡張子で勝手に判定してくれる

scrapy crawl MySpider -o output.csv

他にもログを残すやり方とか

scrapy crawl MySpider --logfile scrapy.log

スケジューリング

と、うまくいったら勝手に実行してほしいですよね。スケジューラはcrontabでもなんでもいいけど、実行するときのシェルスクリプトにちょっと手間取った。

export PATH=$PATH:/home/xxxx/.pyenv/shims

cd tutorial

scrapy crawl MySpider --logfile scrapy.log

こんな感じにした。うまくscrapyへのパスを指定しないと「scrapyなんてコマンド知りませんけど」ってなる。僕の場合はpyenvを使っているのでscrapyのパスも/home/xxxx/.pyenv/shimsにあったのでそれを指定した。which scrapyとかで探せばいい。あとはプロジェクトのホームディレクトリに移動して実行コマンドを打つ、といったスクリプト。実行権限も必要に応じて。

最後に

クローラは自動ゆえ便利だが、頻繁に実行すると当然相手サーバにアクセスすることになる。先方に迷惑がかからない程度に節度をもってやりましょう。こんな事件も昔にあった事ですし、、、

岡崎市立中央図書館事件 - Wikipedia

mysqlclientでCRUDする

というよりmysql-connector-pythonがインストールできなかった。

dragstar.hatenablog.com

mysql-connector-pythonをpipからインストールしようとしたら下記のエラーが出た

Could not find a version that satisfies requirement mysql-connector-python(from versions: )
No matching distribution found for mysql-connector-python

残念だが君はバージョンを満たしてないようだね。というご宣託。

MySQL :: MySQL Connector/Python Developer Guide :: 3 Connector/Python Versions

公式リンクによるとpython3.3と書いてあるのでPython3.5の僕はアウトらしい。ということでmysqlclientをしばらく相棒にしようかと思う。インストールはpipで。

pip install mysqlclient

エラーがでるようならaptでライブラリを入れておく

sudo apt insatall libmysqlclient-dev

接続と終了

import MySQLdb

con = MySQLdb.connect(
        user = "user",
        passwd = "pass",
        host = "yourhost",
        db = "yourdb")
cur = con.cursor()
cur.close
con.close

以降はこの接続と変数を使うという前提です

Read(SELECT)

CRUDといいながらまずはセレクト

cur.execute("select * from tbl")
for row in cur.fetchall():
    print(str(row[0]))

cur.close

Create(INSERT)

続いてINSERT

cur.execute("INSET INTO tbl(id, value) VALUES (1, 100)")
con.commit
cur.close
con.close

一括INSERTはこんな感じ。

cur.executemany("INSET INTO tbl(id, value) VALUES (%s, %s)", [(1, 100), (2, 200), (3, 300)])
con.rollback
cur.close
con.close

Update

なんかSQLさえ流せればという感じがしてきた。

cur.execute("UPDATE tbl SET value=400 WHERE id = 2")
con.commit
cur.close
con.close

Delete

結局これも。

cur.execute("DELETE FROM tbl WHERE id = 3")
con.rollback
cur.close
con.close

まとめ

途中でも書いたけど、SQLさえかければという感じがする。というよりRDBのドライバに求められているのって結局それなんでしょうね。あとはJavaでいうところのPreparedStatement#addBatch()みたいなやつが欲しいんだけどなぁ。どうだろ?Documentを探せばあるかな。

Welcome to MySQLdb’s documentation! — MySQLdb 1.2.4b4 documentation