スキップしてメイン コンテンツに移動

word2vecで遊んでみる

機械学習関連の記事を読みあさっていたところ、オライリーからword2vecによる自然言語処理という書籍が出ていることを知った。ちょっと面白そうだなーと思って、とりあえずword2vecを触ってみることにした。環境はMBA(OS X Yosemite)。

まずは公式サイトからsvn checkoutしてくる。
$ svn checkout http://word2vec.googlecode.com/svn/trunk/
$ cd ./trunk/
$ ls
LICENSE                    demo-word.sh
README.txt                 distance.c
compute-accuracy.c         makefile
demo-analogy.sh            questions-phrases.txt
demo-classes.sh            questions-words.txt
demo-phrase-accuracy.sh    word-analogy.c
demo-phrases.sh            word2phrase.c
demo-train-big-model-v1.sh word2vec.c
demo-word-accuracy.sh
で、make。
$ make
gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc word2phrase.c -o word2phrase -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc distance.c -o distance -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
distance.c:18:10: fatal error: 'malloc.h' file not found
#include
         ^
1 error generated.
make: *** [distance] Error 1
エラーが出た。OS Xだとmallocが/usr/include直下に無いらしい。なので直下にリンク張っておく。
$ ls -alF /usr/include/malloc/malloc.h
-rw-r--r--  1 root  wheel  13706  9 10  2014 /usr/include/malloc/malloc.h
$ sudo ln -s /usr/include/malloc/malloc.h /usr/include/malloc.h
再チャレンジ。今度はうまくいって、実行ファイルが出来上がった。
$ make
$ ls
LICENSE                    demo-classes.sh            demo-word.sh               questions-words.txt        word2vec
README.txt                 demo-phrase-accuracy.sh    distance                   word-analogy               word2vec.c
compute-accuracy           demo-phrases.sh            distance.c                 word-analogy.c
compute-accuracy.c         demo-train-big-model-v1.sh makefile                   word2phrase
demo-analogy.sh            demo-word-accuracy.sh      questions-phrases.txt      word2phrase.c
テストスクリプトを動かしてみる...んだけど、OS Xだとwgetが入ってないので、以下のように修正。
$ vi demo-word.sh
make
if [ ! -e text8 ]; then
### コメント 化
#  wget http://mattmahoney.net/dc/text8.zip -O text8.gz
#  gzip -d text8.gz -f
### 追加
  curl -O http://mattmahoney.net/dc/text8.zip
  unzip text8.zip
###
fi
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
テストスクリプトを実行。
$ ./demo-word.sh
Starting training using file text8
Vocab size: 71291
Words in train file: 16718843
Alpha: 0.000005  Progress: 100.10%  Words/thread/sec: 77.29k
real 14m58.897s
user 54m5.354s
sys 0m18.830s
とりあえずjapanってやってみた。あーなんとなく関連ぽい言葉が出てくる。chinaが高いポイントなのが面白い。
Enter word or sentence (EXIT to break): japan
Word: japan  Position in vocabulary: 582
                                              Word       Cosine distance
------------------------------------------------------------------------
                                            nagoya 0.636266
                                             china 0.630357
                                          japanese 0.626650
                                             chiba 0.619252
                                           shimizu 0.591518
                                             osaka 0.585299
じゃ、僕の名前であるsasakiをやってみると...日本人の苗字が出てきた。
Enter word or sentence (EXIT to break):sasaki
Word: sasaki  Position in vocabulary: 39817
                                              Word       Cosine distance
------------------------------------------------------------------------
                                             inoue 0.601103
                                             isshu 0.597284
                                            suzuki 0.590220
                                         matsumoto 0.587990
                                             saigo 0.571434
じゃ、appleは...というと、フルーツでは無くメーカーのほうが出てきた。
Enter word or sentence (EXIT to break): apple
Word: apple  Position in vocabulary: 1221
                                              Word       Cosine distance
------------------------------------------------------------------------
                                         macintosh 0.685635
                                              imac 0.604292
                                              iigs 0.594525
                                        appleworks 0.588855
                                         quickdraw 0.571981
                                           wozniak 0.570726
今回使ったサンプルデータであるtext8.zipは、1行の長い文章で構成されたデータになっている。何かの論文でも繋げたものだろうか?日本語の文章を解析する場合にはmecabで分かち書きにして結合してあげる必要があるみたい。


  入門 自然言語処理
入門 自然言語処理

このブログの人気の投稿

努力できること自体が才能なので、努力しただけで褒められるべき

発明王トーマス・エジソンの名言としてよく知られる「天才とは1%のひらめきと99%の努力である」という言葉があります。実際の意図は「1%のひらめきがなければ、99%の努力は無駄になる」であったとも 言われています が、まぁどちらにせよ、ひらめきだけでは成功することはできず、そこには必ず努力も必要となります。 漫画「はじめの一歩」において主人公の師匠である鴨川会長は「努力した者が全て報われるとは限らん。しかし、成功した者は皆すべからく努力しておる」と言っていました。ここにも、成功において努力は必要不可欠であるとの強いメッセージがあります。 しかし、実際には誰もが努力できるわけではありません。 努力できること自体が才能 なのだと思います。 努力をしないことが問題だと言うつもりはありませんし、努力をしないという選択肢を選ぶことは個人の自由だと思います。必ずしも成功が万人の幸せなわけではないし、成功しなくても得られる生活によって満足する人だっています。 僕が言いたいのは「そもそも努力できない人がいる」という事実です。こういう方は選択の余地が無く、何かにおいて1位になったり、一流になったり、勝利したり、成功したりすることは難しくなります。それらには必ず努力が必要になるからであり、そして努力ができない、努力をする才能が無いからです。 これには実験の裏付けがあります。詳しくは10年前の WIREDの記事 に書かれていますが、ざっくり言うと、脳内の一部(左線条体と前頭前皮質腹内側部)におけるドーパミン作動性活性が高いと努力ができる、違う一部( 島皮質)の ドーパミン作動性活性が高いと努力できない、という実験結果があります。そもそも脳の作りや働きによって努力ができる人とできない人がいる、ということです。 繰り返しになりますが、僕は努力しない人が悪いとも思っていないし、責めるつもりもありません。僕が言いたいのは以下の2点です。 (1)努力できること自体が才能であり、その才能が無い人はそもそも努力ができないので 、努力できないことを責めてはいけない。 それは本人の特性であり個性だから。 (2)努力できること自体がすごいことなので、努力した結果が成功に結びつかなかったとしても、責めてはいけない。 努力しただけで褒められてよい。 人にはそれぞれ適材適所があるので、めちゃくちゃ努力する人は努力が

自走する組織に必要なのはルールではなくガイドライン

ということをいつも心がけている、という話です。 僕が組織のマネジメント職を20年ほどやらせてもらっている上で、いつも意識しているのは権限移譲とセルフマネジメントです。この辺の話は過去のブログにも書きました。 管理職のためのエンジニア組織構築マニュアル 管理職のための役職引退マニュアル 現場に口を出さないマネージャーの作り方 つまり「権限と裁量を同時に移譲し、責任感を持ってプロアクティブに仕事をしてもらいながらも、メンバーの良いところを更に引き出して高いパフォーマンスを出してもらう」ことこそが、マネジメント職のやるべきことだと思っています。 そのために僕がいつも権限移譲の際に伝えるのは、ルールではなくガイドラインです。ルールは規則や規定といった決まりごとなので「やること」「やってはいけないこと」が書かれたものです。ガイドラインは大まかな指針なので「方向性」「やったほうがいいこと」「やらないほうがいいこと」が書かれたものです。 ルールを提示した場合、そのとおりにすれば過去の実績からある程度の成功は見込めるものの、状況に応じた柔軟な判断が出来ませんし、メンバーの考えや意見が行動に反映されません。メンバーはルール通りの行動しか出来ず、結果としてルールを作成した人以上の成果は出せなくなってしまいます。 ガイドラインの場合、会社として望ましいと考える方向性だけが書かれているので、状況に応じた柔軟な判断も出来ますし、メンバーが考えるより良いやり方や行動を取り入れることが出来ます。ガイドラインを作成した人以上の良いアイデアがあればガイドラインをアップデートすることも出来ます。 これは権限移譲だけでなく、育成においても同様だと僕は考えます。1から10まで決まりきったカリキュラムをやらせることも時には(あるいは人によっては)必要だけれど、本当に価値のある育成は、メンバーに目指してほしい姿を伝え、現在とのギャップを一緒に認識し、そのギャップを埋めるための多種多様な方法を伝えて、その上で本人が取捨選択して自分自身で学習していく。企業や上長はそのサポートを行う。というのが、最も成長出来る育成方法だと思います。 学習する組織 ― システム思考で未来を創造する posted with AmaQuick at 2

「許可を得るな、謝罪せよ」が意図していること

 弊社ではセルフマネジメントとアウトプットファーストを行動指針として掲げていますが、セルフマネジメントを象徴する言葉としてよく使われるのが 「許可を得るな、謝罪せよ」 です。 細かい話は 以前ブログにした のでそちらを読んで頂くとして、この言葉が意味するのは「アクションするのにいちいち許可を得る必要はない。許可を取る時間が無駄。やっていいですかじゃなくてやりましたと言えばいい。その結果間違っていれば謝れば良いだけ」です。 何故この方針を取るのか、この方針によってどのような結果を期待しているのか、を改めて整理したいと思います。 アクションのスピードを上げたい これは上述した意味の通りで、何らかの施策や企画があるときに、上長の許可を取るために資料を作ったり、打ち合わせしたり、下調べをしたり、という時間が無駄だからです。 この考え方の前提として「小さな失敗を早くたくさんする」というのがあります。どんな施策も企画も、正解なんて誰にもわからないし、やり方次第で変わるものです。アイデアの時点であーだこーだ言うより、実際に手を動かしてやってみて、その結果から継続の判断を行うことで、リスクを小さく、コストも小さく、たくさんアクションすることが出来ます。 モチベーションを持って取り組んでもらいたい 何でもそうですけど、人に言われたことをそのままやるより、自分で考えたことを自分のやり方でやるほうが、面白いです。僕が仕事をする上で、または僕がピープルマネジメントする上で、一番重要視しているのは、面白いかどうか、です。 担当者がモチベーションのないままやって成功することなんて(ほとんど)ありません。その施策や企画の実施に一番モチベーションがあるのはそれを考えた人なので、その人に主導してもらうのが一番成功率が高いです。 主体性を持って取り組んでもらいたい モチベーションと同様に、担当者が主体性のないままやって成功することなんて(ほとんど)ありません。その施策/企画を自分ごととして捉え、だからこそ知恵を絞って、全力を発揮する、つまり主体性を持って取り組むことが、一番成功率が高いです。そしてもちろん、一番主体性を持てるのはそれを考えた人です。 なお、主体性と責任は違います。前述の通り「小さな失敗を早くたくさんする」ためには、失敗に対して責任を追求するのではなく、結果と知見を追求する、という文化が