NLTK Book(入門 自然言語処理)を読んだ
和訳本はこれ。(ただし原文のほうを読んだ。原文のほうはPython3対応。)
- 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/11/11
- メディア: 大型本
- 購入: 20人 クリック: 639回
- この商品を含むブログ (44件) を見る
自然言語処理について基本的なことを知っておきたくて読んだ、が少々くどい本だと感じた。
というのも、学部の一般教養の授業などで、プログラミングの基礎の無い人にプログラミングと自然言語処理の両方に触れてもらうという目的で書かれた本だからである。したがって悪く言うことはできない。
知らない話も多かったが知っている話も多かった…
TFIDFとかについて知りたかったのだけどこっちとか読んだほうがよかったかも(未読)
(NLTK BookにはTFIDFは出てきません…)
- 作者: 徳永健伸,辻井潤一
- 出版社/メーカー: 東京大学出版会
- 発売日: 1999/11
- メディア: 単行本
- 購入: 6人 クリック: 166回
- この商品を含むブログ (17件) を見る
- 作者: 高村大也,奥村学
- 出版社/メーカー: コロナ社
- 発売日: 2010/07
- メディア: 単行本
- 購入: 13人 クリック: 235回
- この商品を含むブログ (42件) を見る
「市場と取引」(Trading and Exchanges)を読んだ
市場と取引―実務家のためのマーケット・マイクロストラクチャー〈上〉
- 作者: ラリーハリス,Larry Harris,宇佐美洋,小野里光博,濱田隆道,山岡博士
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2006/04/01
- メディア: 単行本
- クリック: 5回
- この商品を含むブログ (2件) を見る
市場と取引―実務家のためのマーケット・マイクロストラクチャー〈下〉
- 作者: ラリーハリス,Larry Harris,宇佐美洋,小野里光博,濱田隆道,山岡博士
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2006/04/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (2件) を見る
Trading and Exchangesの和訳本。マーケットマイクロストラクチャと呼ばれる分野の入門書。
非常に面白く書かれており、また非常に読みやすいので、かなりおすすめ。良いかは別として、極力数式を減らすよう心がけているようだ。
欄外コラムなど含め、クルーグマンのミクロ・マクロ本的な面白さがある(もしかしたら相当意識しているかもしれない)。
金融商品の取引をターゲットとした本だが、広い知見が得られるような内容であるため、経済全般に興味があるという人でも楽しめるのではないかと思う。
また、学術書の中では比較的和訳のクオリティが高く、誤植が非常に少ない点もよかった。(Amazon今見たら訳がこなれていないとかレビュー書いてる奴がいてげんなりしたが)
相対的にマイナー本な理由がよくわからない。
Trading and Exchangesのpdfは相当間引かれた物であるため原著か和訳版を買って読まれることをおすすめする。
pandasででかいテーブルをMySQLからHDF5に落としこむ
pd.read_sqlしてto_hdfしたい所だが、メモリ上にのりきらないようなサイズだと動かない。
pd.read_sqlにはchunksizeという便利なものがあり、この引数を指定するとchunkに切られたDataFrameのiteratorを返してくれるので、どうにかなりそうに見えるが、read_sqlのソースを読むと、SQLのクエリは依然一度にexecuteされるのでSELECT *した結果が全部メモリに乗らないようなサイズだとchunksizeを使っても依然どうにもならない。
そこでちゃんとSQLクエリでLIMITとOFFSETを使って少しずつとってくる。
import pandas as pd engine = 'mysql://(mysql host)/(your database)' def convert(): limit = 50000 offset = 0 while True: print('offset: %d' % offset) df = pd.read_sql_query('SELECT * FROM ticks LIMIT %d OFFSET %d' % (limit, offset), engine) df = df.set_index('id') if len(df) < limit: break offset += limit yield df yield df store = pd.HDFStore('ticks.h5', complib='zlib') key = 'ticks' first_time = True for chunk in convert(): if first_time: store.put(key, chunk, format='table') else: store.append(key, chunk) first_time = False store.close()
PRMLを眺めた
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (18件) を見る
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 6人 クリック: 14回
- この商品を含むブログを見る
読んだというのもおこがましい雑な読み方をしたので「眺めた」。数式も全く追ってません(キリッ)。
言い訳としては、長年積ん読書として降臨していたのでいい加減片付けたかった。
感想としては、この本手を広げすぎじゃないかというのと、文章が無用に難解じゃないかなあという感じ。知っていることの解説は雑で、知らないことの説明はこれじゃわかんねぇよ…って思った。全体を俯瞰するための教科書だとまえがきで言っているので個々の分野についてはそれぞれの専門書を当たったほうがよいと思う。あと10年前の本です。
CNN, SVMの話をしてたかと思ったらOrnstein-Uhlenbeck過程とかARMAとかMCMCとかカルマンフィルターとかviterbi復号法とか言い始めるのなんなん…
はい僕の理解力が低いだけですすいません。
でもPRMLに限らない話として、俯瞰的な用途の教科書をやたら精読する風潮はどうかなあと思う。
(自分の見解に自信がない時はフォローしてる中から評判とかtwitter検索かけるようにしてるのですが大体見解自体は正しそう)
"Learning scikit-learn: Machine Learning in Python" を読んだ
- 作者: Raul Garreta,Guillermo Moncecchi
- 出版社/メーカー: Packt Publishing
- 発売日: 2013/11/25
- メディア: ペーパーバック
- この商品を含むブログを見る
"Python for Data Analysis"を読んだ
- 作者: Wes Mckinney
- 出版社/メーカー: Oreilly & Associates Inc
- 発売日: 2012/10/29
- メディア: ペーパーバック
- この商品を含むブログ (6件) を見る
Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理
- 作者: Wes McKinney,小林儀匡,鈴木宏尚,瀬戸山雅人,滝口開資,野上大介
- 出版社/メーカー: オライリージャパン
- 発売日: 2013/12/26
- メディア: 大型本
- この商品を含むブログ (12件) を見る
タイトルだけ見るとnumpyの本なのかと思うが、作者はpandasの中の人で、ほぼほぼpandasの本。
最近ぼちぼちpandasを使ったブツを開発しているのだが、自分が全然numpyもpandasも理解していないまま使っていたという事がわかった…
pandasユーザー必読。それだけでなく、多分pandasとか使えると普通にありとあらゆるタスクに役立つはずなのでみんな読んだほうがいいっす。
「深層学習 (機械学習プロフェッショナルシリーズ)」を読んだ
- 作者: 岡谷貴之
- 出版社/メーカー: 講談社
- 発売日: 2015/04/08
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (10件) を見る
長年よく分かってないまま、なんとなくA君やT君の話にウンウンなるほど〜〜〜とか言ってたのを大いに恥じています。