2016-05-27

pandasででかいテーブルをMySQLからHDF5に落としこむ

pd.read_sqlしてto_hdfしたい所だが、メモリ上にのりきらないようなサイズだと動かない。

pd.read_sqlにはchunksizeという便利なものがあり、この引数を指定するとchunkに切られたDataFrameのiteratorを返してくれるので、どうにかなりそうに見えるが、read_sqlのソースを読むと、SQLのクエリは依然一度にexecuteされるのでSELECT *した結果が全部メモリに乗らないようなサイズだとchunksizeを使っても依然どうにもならない。

そこでちゃんとSQLクエリでLIMITとOFFSETを使って少しずつとってくる。

import pandas as pd

engine = 'mysql://(mysql host)/(your database)'

def convert():
    limit = 50000
    offset = 0
    while True:
        print('offset: %d' % offset)
        df = pd.read_sql_query('SELECT * FROM ticks LIMIT %d OFFSET %d' % (limit, offset), engine)
        df = df.set_index('id')
        if len(df) < limit:
            break
        offset += limit
        yield df
    yield df

store = pd.HDFStore('ticks.h5', complib='zlib')
key = 'ticks'

first_time = True

for chunk in convert():
    if first_time:
        store.put(key, chunk, format='table')
    else:
        store.append(key, chunk)
    first_time = False

store.close()

2016-05-17

PRMLを眺めた

パターン認識と機械学習上

作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
出版社/メーカー: 丸善出版
発売日: 2012/04/05
メディア: 単行本（ソフトカバー）
購入: 6人クリック: 33回
この商品を含むブログ (18件) を見る

パターン認識と機械学習下 (ベイズ理論による統計的予測)

作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
出版社/メーカー: 丸善出版
発売日: 2012/02/29
メディア: 単行本
購入: 6人クリック: 14回
この商品を含むブログを見る

読んだというのもおこがましい雑な読み方をしたので「眺めた」。数式も全く追ってません（キリッ）。
言い訳としては、長年積ん読書として降臨していたのでいい加減片付けたかった。

感想としては、この本手を広げすぎじゃないかというのと、文章が無用に難解じゃないかなあという感じ。知っていることの解説は雑で、知らないことの説明はこれじゃわかんねぇよ…って思った。全体を俯瞰するための教科書だとまえがきで言っているので個々の分野についてはそれぞれの専門書を当たったほうがよいと思う。あと10年前の本です。

CNN, SVMの話をしてたかと思ったらOrnstein-Uhlenbeck過程とかARMAとかMCMCとかカルマンフィルターとかviterbi復号法とか言い始めるのなんなん…

はい僕の理解力が低いだけですすいません。

でもPRMLに限らない話として、俯瞰的な用途の教科書をやたら精読する風潮はどうかなあと思う。

（自分の見解に自信がない時はフォローしてる中から評判とかtwitter検索かけるようにしてるのですが大体見解自体は正しそう）

2016-05-17

"Learning scikit-learn: Machine Learning in Python" を読んだ

Learning Scikit-Learn: Machine Learning in Python: Experience the Benefits of Machine Learning Techniques by Applying Them to Read-World Problems Using Python and the Open S

作者: Raul Garreta,Guillermo Moncecchi
出版社/メーカー: Packt Publishing
発売日: 2013/11/25
メディア: ペーパーバック
この商品を含むブログを見る

2016-05-08

"Python for Data Analysis"を読んだ

Python for Data Analysis

作者: Wes Mckinney
出版社/メーカー: Oreilly & Associates Inc
発売日: 2012/10/29
メディア: ペーパーバック
この商品を含むブログ (6件) を見る

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

作者: Wes McKinney,小林儀匡,鈴木宏尚,瀬戸山雅人,滝口開資,野上大介
出版社/メーカー: オライリージャパン
発売日: 2013/12/26
メディア: 大型本
この商品を含むブログ (12件) を見る

タイトルだけ見るとnumpyの本なのかと思うが、作者はpandasの中の人で、ほぼほぼpandasの本。

最近ぼちぼちpandasを使ったブツを開発しているのだが、自分が全然numpyもpandasも理解していないまま使っていたという事がわかった…

pandasユーザー必読。それだけでなく、多分pandasとか使えると普通にありとあらゆるタスクに役立つはずなのでみんな読んだほうがいいっす。

2016-05-04

「深層学習 (機械学習プロフェッショナルシリーズ)」を読んだ

深層学習 (機械学習プロフェッショナルシリーズ)

作者: 岡谷貴之
出版社/メーカー: 講談社
発売日: 2015/04/08
メディア: 単行本（ソフトカバー）
この商品を含むブログ (10件) を見る

長年よく分かってないまま、なんとなくA君やT君の話にウンウンなるほど〜〜〜とか言ってたのを大いに恥じています。

2016-05-01

"High-Frequency Trading" by Irene Aldridgeを読んだ

High-Frequency Trading: A Practical Guide to Algorithmic Strategies and Trading Systems (Wiley Trading)

作者: Irene Aldridge
出版社/メーカー: Wiley
発売日: 2013/04/22
メディア: ハードカバー
この商品を含むブログを見る

さすがに全編ちゃんとは読めてないです…
1冊で全てをカバーするという訳ではないけれども参考文献がものすごい数しっかりと明示されているし、ここをきっかけにいろいろ調べるとっかかりがつかめて良い本だと思う。なんか米Amazonのレビューだと酷評されてるけど…
ただ如何せん読みやすい本ではないというか早足なので、個々の分野についてはそれ専門の本をしっかり読んだほうがよさそう。

2016-04-30

「データサイエンティスト養成読本機械学習入門編」を読んだ

データサイエンティスト養成読本機械学習入門編 (Software Design plus)

作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹
出版社/メーカー: 技術評論社
発売日: 2015/09/10
メディア: 大型本
この商品を含むブログ (7件) を見る

ツールの具体例が多く挙げられており、またコードを交えた実例が多いのが良かった。