スキップしてメイン コンテンツに移動

word2vecで遊んでみる

機械学習関連の記事を読みあさっていたところ、オライリーからword2vecによる自然言語処理という書籍が出ていることを知った。ちょっと面白そうだなーと思って、とりあえずword2vecを触ってみることにした。環境はMBA(OS X Yosemite)。

まずは公式サイトからsvn checkoutしてくる。
$ svn checkout http://word2vec.googlecode.com/svn/trunk/
$ cd ./trunk/
$ ls
LICENSE                    demo-word.sh
README.txt                 distance.c
compute-accuracy.c         makefile
demo-analogy.sh            questions-phrases.txt
demo-classes.sh            questions-words.txt
demo-phrase-accuracy.sh    word-analogy.c
demo-phrases.sh            word2phrase.c
demo-train-big-model-v1.sh word2vec.c
demo-word-accuracy.sh
で、make。
$ make
gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc word2phrase.c -o word2phrase -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc distance.c -o distance -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
distance.c:18:10: fatal error: 'malloc.h' file not found
#include
         ^
1 error generated.
make: *** [distance] Error 1
エラーが出た。OS Xだとmallocが/usr/include直下に無いらしい。なので直下にリンク張っておく。
$ ls -alF /usr/include/malloc/malloc.h
-rw-r--r--  1 root  wheel  13706  9 10  2014 /usr/include/malloc/malloc.h
$ sudo ln -s /usr/include/malloc/malloc.h /usr/include/malloc.h
再チャレンジ。今度はうまくいって、実行ファイルが出来上がった。
$ make
$ ls
LICENSE                    demo-classes.sh            demo-word.sh               questions-words.txt        word2vec
README.txt                 demo-phrase-accuracy.sh    distance                   word-analogy               word2vec.c
compute-accuracy           demo-phrases.sh            distance.c                 word-analogy.c
compute-accuracy.c         demo-train-big-model-v1.sh makefile                   word2phrase
demo-analogy.sh            demo-word-accuracy.sh      questions-phrases.txt      word2phrase.c
テストスクリプトを動かしてみる...んだけど、OS Xだとwgetが入ってないので、以下のように修正。
$ vi demo-word.sh
make
if [ ! -e text8 ]; then
### コメント 化
#  wget http://mattmahoney.net/dc/text8.zip -O text8.gz
#  gzip -d text8.gz -f
### 追加
  curl -O http://mattmahoney.net/dc/text8.zip
  unzip text8.zip
###
fi
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
テストスクリプトを実行。
$ ./demo-word.sh
Starting training using file text8
Vocab size: 71291
Words in train file: 16718843
Alpha: 0.000005  Progress: 100.10%  Words/thread/sec: 77.29k
real 14m58.897s
user 54m5.354s
sys 0m18.830s
とりあえずjapanってやってみた。あーなんとなく関連ぽい言葉が出てくる。chinaが高いポイントなのが面白い。
Enter word or sentence (EXIT to break): japan
Word: japan  Position in vocabulary: 582
                                              Word       Cosine distance
------------------------------------------------------------------------
                                            nagoya 0.636266
                                             china 0.630357
                                          japanese 0.626650
                                             chiba 0.619252
                                           shimizu 0.591518
                                             osaka 0.585299
じゃ、僕の名前であるsasakiをやってみると...日本人の苗字が出てきた。
Enter word or sentence (EXIT to break):sasaki
Word: sasaki  Position in vocabulary: 39817
                                              Word       Cosine distance
------------------------------------------------------------------------
                                             inoue 0.601103
                                             isshu 0.597284
                                            suzuki 0.590220
                                         matsumoto 0.587990
                                             saigo 0.571434
じゃ、appleは...というと、フルーツでは無くメーカーのほうが出てきた。
Enter word or sentence (EXIT to break): apple
Word: apple  Position in vocabulary: 1221
                                              Word       Cosine distance
------------------------------------------------------------------------
                                         macintosh 0.685635
                                              imac 0.604292
                                              iigs 0.594525
                                        appleworks 0.588855
                                         quickdraw 0.571981
                                           wozniak 0.570726
今回使ったサンプルデータであるtext8.zipは、1行の長い文章で構成されたデータになっている。何かの論文でも繋げたものだろうか?日本語の文章を解析する場合にはmecabで分かち書きにして結合してあげる必要があるみたい。


  入門 自然言語処理
入門 自然言語処理

このブログの人気の投稿

初めての給与交渉で意識するべき6つのポイント

本記事は、社会人となって1〜3年目くらいの方が、給与アップのためにどのように考え、どのようにアクションするべきなのかを、僕の経験を踏まえてまとめたものです。 背景として、僕が初めて働いたIT企業は、年棒制で給与交渉は各自が行うものであり、年次で成果レポートと希望する年収額を会社に提示し、それが査定されて翌年の年俸が確定する、という制度でした。なので僕自身は若い頃からずっと給与交渉をし続けています。 大前提:給与とは与えられるものではなく勝ち取るものである 給与は勝手に上がるものではありません。自分の努力や成果を誰か(=会社や上長)が適切に判断し公平に給与を払ってくれる、なんてことはありません。何故なら多くの仕事は定量的なだけでは評価できず、そこに定性的な判断を必要とするからです。そして人間に公平で完璧な意思決定を求めるのはそもそも無理です。人間は感情的で、多くのバイアスを持ち、その時々のコンディションで常に意思決定が歪みます。だからこそ、定性的な評価に関する成果は、被評価者自身が自らアピールしないと評価者に正しく伝わりません(ただしアピールしたところで正しく伝わらないこともあります) もちろん定量的なだけで評価できる仕事は世の中にはあるし、その場合は給与はその成果に比例して決まり、人間の判断は必要としません。でもそうではない、定性的な評価が含まれる仕事をしているのであれば、自ら自分が何をし、どのような成果を出したのかを、きちんと会社に伝え、その分の給与を要求する、というアクションが必要になります。 大前提:給与は会社が儲かっていないと上がらない これもまぁ当たり前ですよね。会社は利益が出てるから社員に投資できる=社員の給与を上げられるわけで、利益が出てなかったらその個人がどんなに頑張ったところで給与は上がりません。何故なら給与を上げるための原資が無いからです。 だから、利益が無い会社に所属しているのであれば、給与交渉はそもそも無駄です。だって交渉しても上がるわけないし。その場合は、給与アップが必須なのであれば転職を検討するしかないし、給与アップしなくてもメリットがあるのであればその会社に在籍し続ける、という選択が必要になります。 目標と現状のギャップを把握する 具体的な希望も無く「給与上げてください」と言うのは給与交渉ではありません。これだと会社もどのくらい上げてほ

40代の減量戦略 〜体重-14kg、体脂肪率-12%を実現した具体的な方法〜

コロナ禍はもちろん辛い時期ではあったけど、生活習慣が良い方へ大きく変わた時期でもあった。具体的には食生活がほぼ自炊になり、酒量が減り、ジム通いを再開し、マラソン大会にも定期的に参加した。そんな中で一念発起し、きちんと減量に取り組んで、体重75kg→61kg(-14kg)、体脂肪率25%→13%(-12%)を実現した。 具体的な体重遷移は以下。2020年12月がMAXの75kg、その後減量とリバウンドを繰り返しつつ70kg前後を推移、2022年後半で一気に落とし、2023年1月30日時点で61kgとなった。 そこで、その具体的な方法をお伝えしたい。減量とは3つの要素の組み合わせだ。 食事 運動 休養 この順番はそのまま優先順位でもある。それぞれについて以下に説明する。 0.プロにアドバイスをもらう 3つの要素と言ったがあれは嘘だ。すまない。もっと重要なことがある。それはプロにアドバイスをもらうことだ。 WHO NOT HOWという本がある。 WHO NOT HOW 「どうやるか」ではなく「誰とやるか」  posted with AmaQuick at 2023.01.21 ディスカヴァー・トゥエンティワン (2022-05-27T00:00:01Z) ダン・サリヴァン(著), ベンジャミン・ハーディ(著), 森由 美子(翻訳) Amazon.co.jpで詳細を見る 要約すると、起業家や経営者がやるべきことはビジネスを成功させることだけれど、人は皆スーパーマンではなく、得意なことと不得意なことがあるんだから、得意なことは得意な人に一任することが大事なんだよ、という内容の本。 これは減量についても同じ。本を読んだりYoutubeで動画を見て、実際に減量出来たのであればそれはそれで構わないし、そういう人はこのブログ投稿を読まないだろう。 自分で学んで、自分でチャレンジして、それでも減量出来ないのであれば、素直に投資してプロのアドバイスをもらったほうが効率が良い。具体的にはパーソナルトレーナーだ。パーソナルトレーナーは運動生理学やスポーツ栄養学などについて学び実践してきた人

45歳になりました

この1年は激動の年でした。 振り返りと抱負です。 個人 相変わらず筋トレを続けています。 バルクアップと減量を繰り返すことで体型がだいぶ変わってきました。 一度絞り切る経験をしてみたいので、夏に向けて減量頑張ってます。 マラソンについては去年よりペースダウンしようと思っています。 今年は1月勝田全国マラソン、2月の北九州マラソンと走って、次は8月の北海道マラソンまでは軽いものにしか出ない予定。 今年もスキーには行けませんでした。 来年は復活したい。 家族 結婚して家を出た長女と長女の夫とは仲良くしています。 月1回くらいは一緒にご飯食べたり飲みに行ったりしています。 RSR23は僕の弟も入れて4人で参戦。とても楽しかったので今年も4人で参戦予定。 一人暮らししていた長男がまた実家住まいに。 相変わらずチャラチャラしてるけどとりあえず自分の食い扶持くらいは稼いでるのでまぁ良いとしよう。 次男は今年高校3年生に。 このまま卒業まで頑張ってほしい。 犬と猫3匹とウサギ1匹は今日も元気です。 飼育放棄されていた犬を一時的に預かり中。 短期的な預かりで、次の飼い主が1−2ヶ月後には迎えに来る予定。 犬が2匹いる生活はなかなか大変でバタバタしています。 妻とは今まで通り仲良しです。 長女が結婚したことで「子どもたちが全員自立した後の夫婦」が目前に近づいてきたせいか、なんなら過去イチで仲良しです。 いつもありがとう妻様。愛してるよ。 仕事 コロナ禍が収束モードとなるのと同時に出張が激増しました。 毎週東京に出張することになって、コロナ以前と同じように東京に拠点となる部屋を作り、年間2/3は自宅を不在にする状況に。 家庭も大事なので、週半分くらいは自宅にいられるようにしたいところ。 仕事人生のゴールを見据え始めました。 45歳なので、60歳が定年だと残り15年。定年後再雇用があっても20年。残りの仕事人生をどう過ごし、どう終わらせるべきなのか。人生の転機に差し掛かってるのかなと感じています。 子育ての終わりが見え始めたこともあり、自分自身の人生を改めて考える必要が出てきたのだと思います。 諸先輩方の考えや経験をたくさん聞いて悩んでいこうと思っていますので、皆さん、ぜひ僕とお話させてください。 誕生日プレゼント こちらで絶賛受付中 です。 過去のお誕生日 2008年: smokeym