スキップしてメイン コンテンツに移動

mecab-rubyを使ってみる

(1)MeCab本体のインストール。今回は既にインストール済みでした。

$ sudo aptitude install mecab mecab-ipadic mecab-jumandic mecab-utils

(2)mecab-rubyをコンパイルするのにg++が必要なのでインストール。

$ sudo aptitude install g++

(3)mecabのVersion確認。

$ mecab -v
mecab of 0.93

(2)SourceForgeからmecab-ruby-0.93.tar.gzをダウンロードして展開。

$ sudo tar xvzf mecab-ruby-0.93.tar.gz
$ cd ./mecab-ruby-0.93

インストール。

$ ruby extconf.rb
checking for main() in -lmecab... yes
checking for main() in -lstdc++... yes
checking for mecab.h... yes
creating Makefile
$ make
g++ -I. -I. -I/usr/lib/ruby/1.8/i486-linux -I. -DHAVE_MECAB_H -fPIC -Wall -g -fno-strict-aliasing -O2 -fPIC -c MeCab_wrap.cpp
gcc -shared -rdynamic -Wl,-export-dynamic -L"/usr/lib" -o MeCab.so MeCab_wrap.o -lruby1.8 -lstdc++ -lmecab -lpthread -ldl -lcrypt -lm -lc
$ sudo make install
/usr/bin/install -c -m 0755 MeCab.so /usr/local/lib/site_ruby/1.8/i486-linux

(4)テストスクリプトを実行してみる。
中身を見ようとcatしたら文字化けしたので文字コードを確認。

$ nkf -g test.rb
EUC-JP

EUCかぁ。Etch上で動かすのでUTF-8に変換する。

$ nkf -w8 test.rb > test2.rb
$ cat test2.rb

#!/usr/bin/ruby

require 'MeCab'
sentence = "太郎はこの本を二郎を見た女性に渡した。"

begin

print MeCab::VERSION, "\n"
c = MeCab::Tagger.new(ARGV.join(" "))

puts c.parse(sentence)

n = c.parseToNode(sentence)

while n do
print n.surface, "\t", n.feature, "\t", n.cost, "\n"
n = n.next
end
print "EOS\n";

rescue
print "RuntimeError: ", $!, "\n";
end


(5)実行してみる。

$ ruby ./test2.rb
0.93
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
BOS/EOS,*,*,*,*,*,*,*,* 0
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 8308
は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9237
この 連体詞,*,*,*,*,*,この,コノ,コノ 9346
本 名詞,一般,*,*,*,*,本,ホン,ホン 13811
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 13094
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 18835
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 19322
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ 23338
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 20625
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ 23008
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 22871
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ 25639
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 25006
。 記号,句点,*,*,*,*,。,。,。 21081
BOS/EOS,*,*,*,*,*,*,*,* 19505
EOS


今回、Bloggerにソースを貼り付けるにあたって以下を参考にしました。Thanks!
すぐに忘れる脳みそのためのメモ: Blogger でソースコードに色付けをする - google-code-prettify

コメント

このブログの人気の投稿

これで完璧!本当に役立つテレワークマナー

コロナ禍によってテレワークを導入する企業が増えた昨今、皆様いかがお過ごしでしょうか。僕は4連休明けでダルかったので有給を取得し妻とデートしてきました。イェーイ。 さて、 弊社 も今年2月以降は全社員完全テレワークに移行しました。弊社は2011年からテレワークを導入し各自が自由に活用していたため、特に大きな問題も無くテレワーク体制に移行したのですが、全社員完全テレワークは初めての状況であり、幾つかの課題が発生しました。特に、その状況下でも新しく入社する社員がいますので、これまで社内で培ってきた暗黙の了解が共有出来ないことは大きな課題でした。 ということで、本記事では、弊社のテレワークマナーについてご紹介したいと思います。皆さんのご参考になれば幸いです。 業務の開始と終了はチャットで宣言する これはオフィス出社時でもテレワークでも変わらないのですが、業務開始時と業務終了時にはSlackで宣言しています。弊社ではこれを開店/閉店と呼んでいます。 気をつけて頂きたいのは、これは 報告ではなく共有である ということです。業務開始と業務終了を共有しておくことで、同僚が相談したり依頼をしたりできる時間を把握出来ます。この共有をしておかないと、業務開始前や業務終了後にMentionがバンバン飛んで来るかもしれません。もちろん飛んできたからって怒るメンバーはいないのですが、お互いちょっとした気遣いが出来るように、自分が働いている時間は共有しておくと良いでしょう。 これは休憩時間も同様です。昼休みにのんびりゲームしているときにスマホがブーブー鳴っていたら気が散るかもしれません。休憩開始と終了をSlackで宣言することでゆっくり休憩することが出来ます。休憩中は Display name の後ろに「休憩中」等と付けておくのも良いでしょう。 マイクとスピーカーはPC内蔵のものを使わない PCの性能は以前と比べて格段に上がっていますが、残念ながらマイクとスピーカーはそうではありません。マイクについては音質は向上しているものの、指向性が無いために周囲の音を拾ってしまいます。そしてPC操作時には、どうしても打鍵音がダイレクトに響いてしまいます。またスピーカーは、まぁ正直全く駄目です。音楽を聞くのにさえ向いていないのに、音声のやり取りなんか出来るわけがない。 マイクとスピーカーは必ず別に用意しましょ

「許可を得るな、謝罪せよ」が意図していること

 弊社ではセルフマネジメントとアウトプットファーストを行動指針として掲げていますが、セルフマネジメントを象徴する言葉としてよく使われるのが 「許可を得るな、謝罪せよ」 です。 細かい話は 以前ブログにした のでそちらを読んで頂くとして、この言葉が意味するのは「アクションするのにいちいち許可を得る必要はない。許可を取る時間が無駄。やっていいですかじゃなくてやりましたと言えばいい。その結果間違っていれば謝れば良いだけ」です。 何故この方針を取るのか、この方針によってどのような結果を期待しているのか、を改めて整理したいと思います。 アクションのスピードを上げたい これは上述した意味の通りで、何らかの施策や企画があるときに、上長の許可を取るために資料を作ったり、打ち合わせしたり、下調べをしたり、という時間が無駄だからです。 この考え方の前提として「小さな失敗を早くたくさんする」というのがあります。どんな施策も企画も、正解なんて誰にもわからないし、やり方次第で変わるものです。アイデアの時点であーだこーだ言うより、実際に手を動かしてやってみて、その結果から継続の判断を行うことで、リスクを小さく、コストも小さく、たくさんアクションすることが出来ます。 モチベーションを持って取り組んでもらいたい 何でもそうですけど、人に言われたことをそのままやるより、自分で考えたことを自分のやり方でやるほうが、面白いです。僕が仕事をする上で、または僕がピープルマネジメントする上で、一番重要視しているのは、面白いかどうか、です。 担当者がモチベーションのないままやって成功することなんて(ほとんど)ありません。その施策や企画の実施に一番モチベーションがあるのはそれを考えた人なので、その人に主導してもらうのが一番成功率が高いです。 主体性を持って取り組んでもらいたい モチベーションと同様に、担当者が主体性のないままやって成功することなんて(ほとんど)ありません。その施策/企画を自分ごととして捉え、だからこそ知恵を絞って、全力を発揮する、つまり主体性を持って取り組むことが、一番成功率が高いです。そしてもちろん、一番主体性を持てるのはそれを考えた人です。 なお、主体性と責任は違います。前述の通り「小さな失敗を早くたくさんする」ためには、失敗に対して責任を追求するのではなく、結果と知見を追求する、という文化が

ネガティブなフィードバックをする時に意識したい7つのこと

僕は現在は取締役兼事業本部長という立ち位置でお仕事させて頂いてますが、元々はエンジニアで、かつピープルマネージメントを15年以上しておりました。僕がマネジメントしたメンバーは合算すると200人以上になります。正直に言えば、楽しいことはたくさんあったけれど、もちろん辛いことも多々経験していまして、特にメンバーに対してネガティブなフィードバックをすることは大きな苦しみの一つです。 最近、自分の部署の若いマネージャーから、ネガティブなフィードバックを上手に行うことが難しく課題に感じている、という声があったので、僕の経験をまとめてみました。 ポジティブなフィードバックをセットにして伝える どんな人にとっても、悪い話を聞くことは楽しい経験ではありません。悪い話だけを聞き続けると、不愉快な感情が理性を覆い隠してしまいます。しかしフィードバックとは叱ることではなく、どのように改善していくかを議論するためのきっかけであり、感情的になることはマイナスに働きます。ネガティブなフィードバックを伝える時は、ポジティブなフィードバックをセットに、出来れば先に伝えます。良い点がない人はいません(そんな人は採用していないはずです)から、必ず褒めるポイント、褒めるべきアウトプットがあるはずです。ポジティブなフィードバックをセットすることで、相手の感情のバランスを取ることが出来ます。 ネガティブな内容を責めるのではなく事実として伝える 上述の通り、フィードバックの目的は叱責ではなく改善なので、「なんで出来ないんだ」とか「どうして出来なかったんだ」ではなく、事実としてのネガティブな現状を正確に伝えることが重要です。例えそれが叱責に値する内容であったとしても、どちらか一方が感情的になると必ずもう片方も感情的になるので、冷静に正しく事実のみを伝えます。 期待値を提示する ネガティブなフィードバックには、必ずあるべき姿、こちらが期待していた姿があるはずなので、それを伝えます。その際には一方的に伝えるのではなく、こちらの期待値を根拠と併せて伝え、その上で一緒にその期待値の妥当性を議論します。この期待値のすり合わせをしないと、メンバー本人の振り返りも生まれず、改善のためのアクションも「言われたからやる」だけになってしまいます。 なぜネガティブな結果になったのかをヒアリングする 人それぞれ様々な事情や環境がある