スキップしてメイン コンテンツに移動

word2vecで遊んでみる

機械学習関連の記事を読みあさっていたところ、オライリーからword2vecによる自然言語処理という書籍が出ていることを知った。ちょっと面白そうだなーと思って、とりあえずword2vecを触ってみることにした。環境はMBA(OS X Yosemite)。

まずは公式サイトからsvn checkoutしてくる。
$ svn checkout http://word2vec.googlecode.com/svn/trunk/
$ cd ./trunk/
$ ls
LICENSE                    demo-word.sh
README.txt                 distance.c
compute-accuracy.c         makefile
demo-analogy.sh            questions-phrases.txt
demo-classes.sh            questions-words.txt
demo-phrase-accuracy.sh    word-analogy.c
demo-phrases.sh            word2phrase.c
demo-train-big-model-v1.sh word2vec.c
demo-word-accuracy.sh
で、make。
$ make
gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc word2phrase.c -o word2phrase -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc distance.c -o distance -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
distance.c:18:10: fatal error: 'malloc.h' file not found
#include
         ^
1 error generated.
make: *** [distance] Error 1
エラーが出た。OS Xだとmallocが/usr/include直下に無いらしい。なので直下にリンク張っておく。
$ ls -alF /usr/include/malloc/malloc.h
-rw-r--r--  1 root  wheel  13706  9 10  2014 /usr/include/malloc/malloc.h
$ sudo ln -s /usr/include/malloc/malloc.h /usr/include/malloc.h
再チャレンジ。今度はうまくいって、実行ファイルが出来上がった。
$ make
$ ls
LICENSE                    demo-classes.sh            demo-word.sh               questions-words.txt        word2vec
README.txt                 demo-phrase-accuracy.sh    distance                   word-analogy               word2vec.c
compute-accuracy           demo-phrases.sh            distance.c                 word-analogy.c
compute-accuracy.c         demo-train-big-model-v1.sh makefile                   word2phrase
demo-analogy.sh            demo-word-accuracy.sh      questions-phrases.txt      word2phrase.c
テストスクリプトを動かしてみる...んだけど、OS Xだとwgetが入ってないので、以下のように修正。
$ vi demo-word.sh
make
if [ ! -e text8 ]; then
### コメント 化
#  wget http://mattmahoney.net/dc/text8.zip -O text8.gz
#  gzip -d text8.gz -f
### 追加
  curl -O http://mattmahoney.net/dc/text8.zip
  unzip text8.zip
###
fi
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
テストスクリプトを実行。
$ ./demo-word.sh
Starting training using file text8
Vocab size: 71291
Words in train file: 16718843
Alpha: 0.000005  Progress: 100.10%  Words/thread/sec: 77.29k
real 14m58.897s
user 54m5.354s
sys 0m18.830s
とりあえずjapanってやってみた。あーなんとなく関連ぽい言葉が出てくる。chinaが高いポイントなのが面白い。
Enter word or sentence (EXIT to break): japan
Word: japan  Position in vocabulary: 582
                                              Word       Cosine distance
------------------------------------------------------------------------
                                            nagoya 0.636266
                                             china 0.630357
                                          japanese 0.626650
                                             chiba 0.619252
                                           shimizu 0.591518
                                             osaka 0.585299
じゃ、僕の名前であるsasakiをやってみると...日本人の苗字が出てきた。
Enter word or sentence (EXIT to break):sasaki
Word: sasaki  Position in vocabulary: 39817
                                              Word       Cosine distance
------------------------------------------------------------------------
                                             inoue 0.601103
                                             isshu 0.597284
                                            suzuki 0.590220
                                         matsumoto 0.587990
                                             saigo 0.571434
じゃ、appleは...というと、フルーツでは無くメーカーのほうが出てきた。
Enter word or sentence (EXIT to break): apple
Word: apple  Position in vocabulary: 1221
                                              Word       Cosine distance
------------------------------------------------------------------------
                                         macintosh 0.685635
                                              imac 0.604292
                                              iigs 0.594525
                                        appleworks 0.588855
                                         quickdraw 0.571981
                                           wozniak 0.570726
今回使ったサンプルデータであるtext8.zipは、1行の長い文章で構成されたデータになっている。何かの論文でも繋げたものだろうか?日本語の文章を解析する場合にはmecabで分かち書きにして結合してあげる必要があるみたい。


  入門 自然言語処理
入門 自然言語処理

コメント

このブログの人気の投稿

リモートワークは仕組みじゃなくて文化です

ここ最近、コロナウイルス関連の報道が数多くあるが、その中でも多くの企業がリモートワークを推奨するという記事やプレスリリースが注目を浴びている。それ自体はもちろん大変望ましい。不要な対面での接点を減らすことで感染リスクを抑えることが出来るし、通勤ラッシュや首都圏への経済集中も抑制出来るからだ。

だがちょっと待ってほしい。リモートワークというのは社員が在宅で働くことだけを指すのではない。社員が在宅で働いても出社時と同じパフォーマンスが出ることをリモートワークというのだ。だからこの記事のタイトルで「リモートワークは仕組みじゃなくて文化です」と書いた。

弊社がリモートワークを導入したのは2011年の東日本大震災がきっかけだけれど、9年経った今、どのようにリモートワークを運用して、そしてパフォーマンスを維持しているかを共有したいと思う。以下のことが文化として根付けば、その会社のメンバーはリモートワークでもオフィスでも同じようなパフォーマンスが発揮出来るはずだ。

1.勤怠を厳密に管理しない え、だってダルくないすか。管理するの。何時に働き始めて何時に働き終わったかなんて関係ないっしょ。大事なのは働いた結果のアウトプットであり、働いた時間なんか問題じゃない。

2.休憩も厳密に管理しない え、だってダルくないすか。管理するの。何時に休憩し始め(ry

3.工数を厳密に管理しない え、だ(ry

4.目に見えるアウトプットを意識する 当然のことながら、仕事は結果が全てであり、結果が出なければどこで何時間働いたって意味がない。そして結果というのは目に見えなければ意味がない。 だからこそ、アウトプットを出すこと、アウトプットを評価することに徹底的にこだわる。それはドキュメントかもしれないし、お客様やパートナーとコミュニケーションするためのメールかもしれないし、社内の改善活動かもしれないし、メンバーへのフォローかもしれないし、ブログかもしれないし、Slackでの発言かもしれない。 とにかく目に見えないものは周りも認められない。目に見えるアウトプットしか評価されないし、そのために徹底的にアウトプットするんだ、という意識を社内でしっかりと作ることが重要。

5.コミュニケーションコストを意識する どんなに頑張っても、オンラインのコミュニケーションはオフラインのコミュニケーションの密度を越えられない…

これで完璧!本当に役立つテレワークマナー

コロナ禍によってテレワークを導入する企業が増えた昨今、皆様いかがお過ごしでしょうか。僕は4連休明けでダルかったので有給を取得し妻とデートしてきました。イェーイ。さて、弊社も今年2月以降は全社員完全テレワークに移行しました。弊社は2011年からテレワークを導入し各自が自由に活用していたため、特に大きな問題も無くテレワーク体制に移行したのですが、全社員完全テレワークは初めての状況であり、幾つかの課題が発生しました。特に、その状況下でも新しく入社する社員がいますので、これまで社内で培ってきた暗黙の了解が共有出来ないことは大きな課題でした。ということで、本記事では、弊社のテレワークマナーについてご紹介したいと思います。皆さんのご参考になれば幸いです。業務の開始と終了はチャットで宣言するこれはオフィス出社時でもテレワークでも変わらないのですが、業務開始時と業務終了時にはSlackで宣言しています。弊社ではこれを開店/閉店と呼んでいます。気をつけて頂きたいのは、これは報告ではなく共有であるということです。業務開始と業務終了を共有しておくことで、同僚が相談したり依頼をしたりできる時間を把握出来ます。この共有をしておかないと、業務開始前や業務終了後にMentionがバンバン飛んで来るかもしれません。もちろん飛んできたからって怒るメンバーはいないのですが、お互いちょっとした気遣いが出来るように、自分が働いている時間は共有しておくと良いでしょう。これは休憩時間も同様です。昼休みにのんびりゲームしているときにスマホがブーブー鳴っていたら気が散るかもしれません。休憩開始と終了をSlackで宣言することでゆっくり休憩することが出来ます。休憩中はDisplay nameの後ろに「休憩中」等と付けておくのも良いでしょう。マイクとスピーカーはPC内蔵のものを使わないPCの性能は以前と比べて格段に上がっていますが、残念ながらマイクとスピーカーはそうではありません。マイクについては音質は向上しているものの、指向性が無いために周囲の音を拾ってしまいます。そしてPC操作時には、どうしても打鍵音がダイレクトに響いてしまいます。またスピーカーは、まぁ正直全く駄目です。音楽を聞くのにさえ向いていないのに、音声のやり取りなんか出来るわけがない。マイクとスピーカーは必ず別に用意しましょう。必ずしも高価なものである…

ネガティブなフィードバックをする時に意識したい7つのこと

僕は現在は取締役兼事業本部長という立ち位置でお仕事させて頂いてますが、元々はエンジニアで、かつピープルマネージメントを15年以上しておりました。僕がマネジメントしたメンバーは合算すると200人以上になります。正直に言えば、楽しいことはたくさんあったけれど、もちろん辛いことも多々経験していまして、特にメンバーに対してネガティブなフィードバックをすることは大きな苦しみの一つです。
最近、自分の部署の若いマネージャーから、ネガティブなフィードバックを上手に行うことが難しく課題に感じている、という声があったので、僕の経験をまとめてみました。 ポジティブなフィードバックをセットにして伝えるどんな人にとっても、悪い話を聞くことは楽しい経験ではありません。悪い話だけを聞き続けると、不愉快な感情が理性を覆い隠してしまいます。しかしフィードバックとは叱ることではなく、どのように改善していくかを議論するためのきっかけであり、感情的になることはマイナスに働きます。ネガティブなフィードバックを伝える時は、ポジティブなフィードバックをセットに、出来れば先に伝えます。良い点がない人はいません(そんな人は採用していないはずです)から、必ず褒めるポイント、褒めるべきアウトプットがあるはずです。ポジティブなフィードバックをセットすることで、相手の感情のバランスを取ることが出来ます。ネガティブな内容を責めるのではなく事実として伝える上述の通り、フィードバックの目的は叱責ではなく改善なので、「なんで出来ないんだ」とか「どうして出来なかったんだ」ではなく、事実としてのネガティブな現状を正確に伝えることが重要です。例えそれが叱責に値する内容であったとしても、どちらか一方が感情的になると必ずもう片方も感情的になるので、冷静に正しく事実のみを伝えます。期待値を提示するネガティブなフィードバックには、必ずあるべき姿、こちらが期待していた姿があるはずなので、それを伝えます。その際には一方的に伝えるのではなく、こちらの期待値を根拠と併せて伝え、その上で一緒にその期待値の妥当性を議論します。この期待値のすり合わせをしないと、メンバー本人の振り返りも生まれず、改善のためのアクションも「言われたからやる」だけになってしまいます。 なぜネガティブな結果になったのかをヒアリングする人それぞれ様々な事情や環境があるため、どうして…