2016-08-10

RからMySQLにつなげる

データをDBからとってきてRで分析がしたい

インストール

僕の場合、別途debパッケージが必要だったのでそれを先にやっておく

sudo apt install libmariadb-client-lgpl-dev

続いてRのパッケージをインストール

install.packages(c("DBI", "RMySQL"))

RからMySQLにつなげる

とっても簡単。

戻り値はdata.frameとなる。あとは煮るなり焼くなり

2016-08-05

Ubuntu16でapt updateするとhashsumエラーが出る

Linux

普段使っているUbuntu15が2016/7/28でサポート切れしていた。ということでUbuntu16をこれからは使っていこうかと。LTSだし。

apt updateができない

Ubuntu16のインストールまではさっくり終わったのだが、apt updateするとハッシュサムがあわないから更新しなかったよというメッセージを受け取った。これでは使えないではないか！ということで調査の旅に出たわけだが、どうやらバグだということまでは分かった。このバグがフィックスされたとしてどうやって適用したらいいのだろうか？頼みのaptが死んでいるのに、、、

apt.confを編集

askubuntu.com

askubuntuで解決策を見つけた。どうやらプロキシ関連のバグという事なので、apt.confにプロキシの設定をちょっと入れるだけで解決するとの事。

/etc/apt/apt.conf

Acquire::http::No-Cache true;
Acquire::http::Pipeline-Depth 0;

この後にapt updateしたら通った。apt upgradeをしてみたら300近く更新が見つかった。ということで、これで解決。いつもの環境にするのに時間がかかるんだろうなぁ。

2016-07-24

irisのデータセットをpandasで使う

Python

タイトルまんまで

irisをpandasで使いたい

pythonのscikit-leanにはいくつかデータセットがあり、俺たちのirisももちろん用意されている。ただそれをpandasで使いたいんや。

pandas先生は自動的にいろいろやってくれる上、その後の加工にも便利。機械学習界隈でなんか新しい技術を見かけたらRにしろpythonにしろirisでやってみるというのがセオリーかと。

2016-06-19

医療を疑え　代替医療のトリック

Book

サイモン・シンによるシンプソンズ関連の本が出るときいてワクワクだったけど、そういえばこれを未読だったことを思い出した。サイモン・シンファンの風上にも置けないな。

代替医療のトリック

作者: サイモンシン,エツァートエルンスト,Simon Singh,Edzard Ernst,青木薫
出版社/メーカー: 新潮社
発売日: 2010/01
メディア: 単行本
購入: 38人クリック: 1,000回
この商品を含むブログ (115件) を見る

目次

第1章 いかにして真実を突き止めるか
第2章 鍼の真実
第3章 ホメオパシーの真実
第4章 カイロプラクティックの真実
第5章 ハーブ療法の真実
第6章 真実は重要か?

代替医療はプラセボである

代替医療を臨床医学の見地からそれぞれ批判していくスタイルで本は進む。しかし、どの代替医療にしても効果が見られていてもプラセボ以上のものでは無いとまでしている。鍼や、カイロプラクティック、そしてハーブも何かしらの効果はあると思っていたのだが、その効果も本書ではプラセボだよと喝破する。

僕からしたらこれらの代替医療は補助的な効果を期待していたのだけど、施術する方としては万能医術として施しているのだとは思わなかった。鍼やカイロプラクティックなら、肩こりとか腰痛とかその辺の治療には効きそうなものだが、風邪にも効きますとか、内臓疾患にも効きますとかとか言われたらそら眉唾だろうと思いそうなものだが、日本とその他の国では意識に違いがあるのだろうか？

コラーゲンを多く含む食事を前にしてプルプル～と言っている人をよく見かけるが、そんな時にただのタンパク質だよ、コラーゲンを食べても希望しているコラーゲンにはならないよと口に出して言いたくても、そこはぐっとこらえる。それは野暮だからだ。しかしプラセボによって効果がもしかして出るのでは？とちょっと思う。これがコラーゲンになるかならないかぐらいならかわいいものだが、こと医療に対してはなんとも躊躇してしまう。だが「病は気から」ともいい、患者に期待を持たせる事はいいのではないだろうか。本書の中でも「祈りは効果ある」と非科学的な事を持ち出すぐらいなので、プラセボの効果を完全には否定していない。

ホメオパシーへの徹底的な批判

第3章でふれながらもそれ以降でも折に触れてホメオパシーをくさしている。他の代替医療の話題をしながらもホメオパシーを引き合いに出して批判する姿は恨みでもあるのかと思うくらいだ。こればっかりは救いようも無いくらいインチキだと確信しているからなのだろう。何らかの成分を何万分の１に希釈したレメディを薬だと出されたら、効果はまったく期待できないと思うだろう。脱水症状には効くという皮肉がとても面白い。

代替医療に力を入れるチャールズ皇太子に対して、扉でチャールズ皇太子にささぐと書くなんてよっぽどの警鐘を鳴らしたいのだと思った。

サイモンシンにはずれなし

とにかくこの人の本は面白い。シンプソンズの本もきっと期待を裏切らないだろう。

それにしても「ビッグバン宇宙論」から「宇宙創成」に変わったようにこの本も文庫本になると「代替医療解剖」に代わる。出版界ではよくある話なんだろうか？

代替医療解剖 (新潮文庫)

作者: サイモンシン,エツァートエルンスト,Simon Singh,Edzard Ernst,青木薫
出版社/メーカー: 新潮社
発売日: 2013/08/28
メディア: 文庫
この商品を含むブログ (30件) を見る

ビッグバン宇宙論 (上)

作者: サイモン・シン,青木薫
出版社/メーカー: 新潮社
発売日: 2006/06/22
メディア: 単行本
購入: 2人クリック: 51回
この商品を含むブログ (133件) を見る

宇宙創成〈上〉 (新潮文庫)

作者: サイモンシン,Simon Singh,青木薫
出版社/メーカー: 新潮社
発売日: 2009/01/28
メディア: 文庫
購入: 12人クリック: 394回
この商品を含むブログ (130件) を見る

2016-06-14

Scrapyチュートリアル

Python

インストール
プロジェクトの作成
Itemの作成
Spiderの作成
shell
Pipelineの作成
実行
スケジューリング
最後に

インストール

前回記事より。 dragstar.hatenablog.com

プロジェクトの作成

まずはプロジェクトを作る

scrapy startproject tutorial

ツリー構成はこんな感じ

tutorial/
├── tutorial
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       └── __init__.py
└── scrapy.cfg

一番上のディレクトリをホームとする

Itemの作成

スクレイピングした結果をItemクラスに保持することになる。items.pyにItemを定義する。

# items.py
import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

どういった情報を保持していくか、用途に合わせて項目を定義していく。

Spiderの作成

実際にスクレイピングをしてくれるSpiderを作る。処理の中でItemにデータを入れるのを忘れずに

# spiders.py
import scrapy
from scrapy.selector import Selector
from tutorial.items import MyItem

class MySpider(BaseSpider):
    name = "MySpider" #spiderに名前を付ける。実行時に使う
    allowed_domains = ["test.com"]
    start_urls = [
        "http://www.test.com/foo/bar"
    ]

    def parse(self, response):
        item = MyItem() 
        sel = Selector(response)

        ## この辺でスクレイピング処理を書いていく
        item['title'] = sel.xpath('//html/head/title/text()').extract()
        item['link'] = sel.xpath('//a/@href').extract()
        yeild item

コツとしてはFirefoxとかで対象サイトの要素をあらかじめ見ておくと希望するものにたどり着きやすい。よっぽどのサイトでなければCSSとかちゃんとやってるのでクラス指定とかID指定とかするとよりいい感じで取得できる。

shell

scrapy shellを動かして試しながらの使い方がおすすめ。xpathの使い方に慣れることができる。また、Itemにどんな感じで帰ってくるかも確認できるのでその後のpipeline作成にも役に立つ。

scrapy shell "http://www.test.com"

Pipelineの作成

スクレイピングした結果を料理するのがPipeline

# pipelines.py
class MyPipeline(object):
    def process_item(self, item, spider):
        # Spiderが実行されてitemに格納されるのでitemをDBにいれるなりなんなり
        t = item['title']
        link_list = item['link'] # listで帰ってくると仮定
        for l in link_list:
            print(l)

        return item

パイプラインを有効にするにはsettings.pyを変える。コメントアウトされているので外して、作ったpipelineを指定する

# settings.py
ITEM_PIPELINES = {
    'tutorial.pipelines.MyPipeline': 300,
}

jsonとかで出力できるので、必要なければpipelineはなくてもいい。

実行

例は実行して結果をjson形式に出力するコマンド

scrapy crawl MySpider -o output.json

CSVで出力するコマンド

scrapy crawl MySpider -o output.json

CSVに出力するやりかた。拡張子で勝手に判定してくれる

scrapy crawl MySpider -o output.csv

他にもログを残すやり方とか

scrapy crawl MySpider --logfile scrapy.log

スケジューリング

と、うまくいったら勝手に実行してほしいですよね。スケジューラはcrontabでもなんでもいいけど、実行するときのシェルスクリプトにちょっと手間取った。

export PATH=$PATH:/home/xxxx/.pyenv/shims

cd tutorial

scrapy crawl MySpider --logfile scrapy.log

こんな感じにした。うまくscrapyへのパスを指定しないと「scrapyなんてコマンド知りませんけど」ってなる。僕の場合はpyenvを使っているのでscrapyのパスも/home/xxxx/.pyenv/shimsにあったのでそれを指定した。which scrapyとかで探せばいい。あとはプロジェクトのホームディレクトリに移動して実行コマンドを打つ、といったスクリプト。実行権限も必要に応じて。

最後に

クローラは自動ゆえ便利だが、頻繁に実行すると当然相手サーバにアクセスすることになる。先方に迷惑がかからない程度に節度をもってやりましょう。こんな事件も昔にあった事ですし、、、

岡崎市立中央図書館事件 - Wikipedia

2016-06-14

象のダクト

Blog

タイ料理屋の裏手で見つけた

2016-06-13

mysqlclientでCRUDする

Python

というよりmysql-connector-pythonがインストールできなかった。

dragstar.hatenablog.com

mysql-connector-pythonをpipからインストールしようとしたら下記のエラーが出た

Could not find a version that satisfies requirement mysql-connector-python(from versions: )
No matching distribution found for mysql-connector-python

残念だが君はバージョンを満たしてないようだね。というご宣託。

MySQL :: MySQL Connector/Python Developer Guide :: 3 Connector/Python Versions

公式リンクによるとpython3.3と書いてあるのでPython3.5の僕はアウトらしい。ということでmysqlclientをしばらく相棒にしようかと思う。インストールはpipで。

pip install mysqlclient

エラーがでるようならaptでライブラリを入れておく

sudo apt insatall libmysqlclient-dev

接続と終了

import MySQLdb

con = MySQLdb.connect(
        user = "user",
        passwd = "pass",
        host = "yourhost",
        db = "yourdb")
cur = con.cursor()
cur.close
con.close

以降はこの接続と変数を使うという前提です

Read(SELECT)

CRUDといいながらまずはセレクト

cur.execute("select * from tbl")
for row in cur.fetchall():
    print(str(row[0]))

cur.close

Create(INSERT)

続いてINSERT

cur.execute("INSET INTO tbl(id, value) VALUES (1, 100)")
con.commit
cur.close
con.close

一括INSERTはこんな感じ。

cur.executemany("INSET INTO tbl(id, value) VALUES (%s, %s)", [(1, 100), (2, 200), (3, 300)])
con.rollback
cur.close
con.close

Update

なんかSQLさえ流せればという感じがしてきた。

cur.execute("UPDATE tbl SET value=400 WHERE id = 2")
con.commit
cur.close
con.close

Delete

結局これも。

cur.execute("DELETE FROM tbl WHERE id = 3")
con.rollback
cur.close
con.close

まとめ

途中でも書いたけど、SQLさえかければという感じがする。というよりRDBのドライバに求められているのって結局それなんでしょうね。あとはJavaでいうところのPreparedStatement#addBatch()みたいなやつが欲しいんだけどなぁ。どうだろ？Documentを探せばあるかな。

Welcome to MySQLdb’s documentation! — MySQLdb 1.2.4b4 documentation

DISTRICT 37

なにか

RからMySQLにつなげる

インストール

RからMySQLにつなげる

Ubuntu16でapt updateするとhashsumエラーが出る

apt updateができない

apt.confを編集

irisのデータセットをpandasで使う

irisをpandasで使いたい

医療を疑え　代替医療のトリック

代替医療はプラセボである

プラセボは悪か

ホメオパシーへの徹底的な批判

サイモンシンにはずれなし

Scrapyチュートリアル

インストール

プロジェクトの作成

Itemの作成

Spiderの作成

shell

Pipelineの作成

実行

スケジューリング

最後に

象のダクト

mysqlclientでCRUDする

接続と終了

Read(SELECT)

Create(INSERT)

Update

Delete

まとめ