スキップしてメイン コンテンツに移動

ElasticSearchとKuromojiで日本語全文検索してみる

北海道開発オフなどでご一緒させて頂いた方はご存知だと思いますが、元々インフラエンジニアとしてネットワーク機器の設定やサーバの構築ばかりしていた僕がプログラムを書くようになったのは、「形態素解析してマルコフ連鎖するTwitter botを作りたい!」というのがきっかけであり、日本語の分かち書きや全文検索というのは僕にとって興味深くそして好きな技術の一つです。

そこで今回はElasticSearchとそのプラグインであるelasticsearch-analysis-kuromojiについて調べてみました。

ElasticSearchとは
Apache v2ライセンスで公開されているオープンソースソフトウェアの検索エンジンです。特徴として
  • RESTfulなAPIが使える
  • InputもOutputもJSON
  • スキーマフリーなので面倒臭い定義無しにデータを突っ込める
等があります。


Kuromojiとは
atilika社製の、Javaで書かれた日本語形態素解析ソフトウェアで、Apache v2ライセンスで公開されているオープンソースソフトウェアです。形態素解析としてはMeCabがメジャーで古くから使われていますが、Kuromojiは比較的新しいソフトウェアです。

ElasticSearchのセットアップ
環境はAmazon Linuxです。ElasticSearchの動作にはJavaが必要ですが、Amazon Linuxの場合初期導入されています。
$ java -version
java version "1.6.0_24"
OpenJDK Runtime Environment (IcedTea6 1.11.13) (amazon-65.1.11.13.56.amzn1-x86_64)
OpenJDK 64-Bit Server VM (build 20.0-b12, mixed mode)
ElasticSearchの公式サイトから最新バージョンをダウンロードします。なお僕は「サーバにインストールするソフトウェアは保守性の観点から可能な限りパッケージ管理するべき」というポリシーなのでRPMから入れます。
$ wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.90.5.noarch.rpm
$ sudo rpm -ivh ./elasticsearch-0.90.5.noarch.rpm
Preparing...                          ################################# [100%]
Updating / installing...
   1:elasticsearch-0.90.5-1           ################################# [100%]
Starting elasticsearch: [  OK  ]

ElasticSearchの動作確認
それでは簡単な動作確認をしてみます。まずはXPUTを使ってテストデータを登録します。
ここではIndexを「mytest」、Typeを「test」としました。Oracle用語で言うと、IndexがSchema、TypeがTableに当たるものになります。
$ curl -XPUT http://localhost:9200/mytest/test/1 -d '
> {
>   "title" : "memo",
>   "text"  : "hogehoge"
> }'
{"ok":true,"_index":"mytest","_type":"test","_id":"1","_version":1}
そしてXGETを使って検索してみます。
$ curl -XGET http://localhost:9200/mytest/test/_search -d '
> {
>   "query":
>   { "match":{"title":"memo"}}
> }'
{"took":85,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.30685282,"hits":[{"_index":"mytest","_type":"test","_id":"1","_score":0.30685282, "_source" :
{
  "title" : "memo",
  "text"  : "hogehoge"
}}]}}
titleが「memo」であるデータが戻り値として返ってきました!

Kuromojiプラグインのセットアップ
ElasticSearchのpluginコマンドを使って、Kuromojiプラグインをインストールします。
$ sudo /usr/share/elasticsearch/bin/plugin  --install elasticsearch/elasticsearch-analysis-kuromoji/1.5.0
-> Installing elasticsearch/elasticsearch-analysis-kuromoji/1.5.0...
Trying http://download.elasticsearch.org/elasticsearch/elasticsearch-analysis-kuromoji/elasticsearch-analysis-kuromoji-1.5.0.zip...
Downloading ................................................................................................................................................................................................................................................................................DONE
Installed elasticsearch/elasticsearch-analysis-kuromoji/1.5.0 into /usr/share/elasticsearch/plugins/analysis-kuromoji
プラグインをインストールした後はElasticSearchの再起動が必要です。
$ sudo service elasticsearch restart
Stopping elasticsearch:                                    [  OK  ]
Starting elasticsearch:                                    [  OK  ]

Kuromojiプラグインの動作確認
それでは簡単な動作確認をしてみましょう。
kurotestというIndexで、kuromojiをアナライザと使うように設定します。
$ curl -XPUT 'http://localhost:9200/kurotest/' -d'
>  {
>      "index":{
>          "analysis":{
>              "tokenizer" : {
>                  "kuromoji" : {
>                     "type" : "kuromoji_tokenizer"
>                  }
>              },
>              "analyzer" : {
>                  "analyzer" : {
>                      "type" : "custom",
>                      "tokenizer" : "kuromoji"
>                  }
>              }
>          }
>      }
>  }'
{"ok":true,"acknowledged":true}
このkurotestにXPOSTで日本語文字列を投げると、分かち書きされて返ってきます!
$ curl -XPOST 'http://localhost:9200/kurotest/_analyze?analyzer=analyzer&petty' -d '梅酒は水'
{
  "tokens" : [ {
    "token" : "梅酒",
    "start_offset" : 0,
    "end_offset" : 2,
    "type" : "word",
    "position" : 1
  }, {
    "token" : "は",
    "start_offset" : 2,
    "end_offset" : 3,
    "type" : "word",
    "position" : 2
  }, {
    "token" : "水",
    "start_offset" : 3,
    "end_offset" : 4,
    "type" : "word",
    "position" : 3
  } ]
}
(余談ですが「梅酒は水」はWebbingStudioさんが北海道に広めた偉大な言葉です)

ElasticSearchとKuromojiプラグインで日本語全文検索
お待たせしました!ここからが本番です。
まずはElasticSearchの設定ファイルを修正し、kuromojiをデフォルトアナライザとして設定します。設定後はElasticSearchの再起動が必要です。
$ sudo vi /etc/elasticsearch/elasticsearch.yml
index.analysis.analyzer.default.type: custom
index.analysis.analyzer.default.tokenizer: kuromoji_tokenizer
$ sudo service elasticsearch restart
それでは二つの日本語文字列をテストデータとして登録してみます。
$ curl -XPUT http://localhost:9200/jptest/test/1 -d '
>   {
>     "title" : "メモ",
>     "text"  : "梅酒は水"
>   }'
{"ok":true,"_index":"jptest","_type":"test","_id":"1","_version":1}
$ curl -XPUT http://localhost:9200/jptest/test/2 -d '
>   {
>     "title" : "メモ2",
>     "text"  : "麦酒は命"
>   }'
{"ok":true,"_index":"jptest","_type":"test","_id":"2","_version":1}
梅酒」という文字列で検索してみます。
$ curl -XGET http://localhost:9200/jptest/test/_search -d '
>    {
>      "query":
>      { "match":{"text":"梅酒"}}
>    }'
{"took":3,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.15342641,"hits":[{"_index":"jptest","_type":"test","_id":"1","_score":0.15342641, "_source" :
  {
    "title" : "メモ",
    "text"  : "梅酒は水"
  }}]}}
ちゃんと「梅酒は水」がヒットしました!

次に「梅酒」という文字列で検索してみます。
$ curl -XGET http://localhost:9200/jptest/test/_search -d '
>     {
       "query":>        { "match":{"text":"梅酒は"}}
>      }'
{"took":5,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":2,"max_score":0.2169777,"hits":[{"_index":"jptest","_type":"test","_id":"1","_score":0.2169777, "_source" :
  {
    "title" : "メモ",
    "text"  : "梅酒は水"
  }},{"_index":"jptest","_type":"test","_id":"2","_score":0.02250402, "_source" :
   {
     "title" : "メモ2",
     "text"  : "麦酒は命"
   }}]}}
「梅酒は水」と「麦酒は命」の2つがヒットしました。ここで注目したいのは赤字にした_scoreです。
「梅酒は水」は「梅酒は」のうち3文字がヒットするためスコアが高く、「麦酒は命」は「酒は」の2文字のみがヒットするためスコアが低くなっています。これで分かち書きによって日本語全文検索が行われていることがわかります。

感想
In/OutがJSONであることから、使い道は色々あるなぁと思います。例えばBlogの記事検索にも使えるし、fluentdと組み合わせてログ検索にも使るし。Kuromojiの分かち書きも試した分には精度良さそうなので、コレを使って何か作ってみたいです。



パーフェクトRuby (PERFECT SERIES 6)パーフェクトRuby (PERFECT SERIES 6)
Rubyサポーターズ,すがわら まさのり,寺田 玄太郎,三村 益隆,近藤 宇智朗,橋立 友宏,関口 亮一

技術評論社
売り上げランキング : 13917

Amazonで詳しく見る by AZlink

コメント

このブログの人気の投稿

これで完璧!本当に役立つテレワークマナー

コロナ禍によってテレワークを導入する企業が増えた昨今、皆様いかがお過ごしでしょうか。僕は4連休明けでダルかったので有給を取得し妻とデートしてきました。イェーイ。 さて、 弊社 も今年2月以降は全社員完全テレワークに移行しました。弊社は2011年からテレワークを導入し各自が自由に活用していたため、特に大きな問題も無くテレワーク体制に移行したのですが、全社員完全テレワークは初めての状況であり、幾つかの課題が発生しました。特に、その状況下でも新しく入社する社員がいますので、これまで社内で培ってきた暗黙の了解が共有出来ないことは大きな課題でした。 ということで、本記事では、弊社のテレワークマナーについてご紹介したいと思います。皆さんのご参考になれば幸いです。 業務の開始と終了はチャットで宣言する これはオフィス出社時でもテレワークでも変わらないのですが、業務開始時と業務終了時にはSlackで宣言しています。弊社ではこれを開店/閉店と呼んでいます。 気をつけて頂きたいのは、これは 報告ではなく共有である ということです。業務開始と業務終了を共有しておくことで、同僚が相談したり依頼をしたりできる時間を把握出来ます。この共有をしておかないと、業務開始前や業務終了後にMentionがバンバン飛んで来るかもしれません。もちろん飛んできたからって怒るメンバーはいないのですが、お互いちょっとした気遣いが出来るように、自分が働いている時間は共有しておくと良いでしょう。 これは休憩時間も同様です。昼休みにのんびりゲームしているときにスマホがブーブー鳴っていたら気が散るかもしれません。休憩開始と終了をSlackで宣言することでゆっくり休憩することが出来ます。休憩中は Display name の後ろに「休憩中」等と付けておくのも良いでしょう。 マイクとスピーカーはPC内蔵のものを使わない PCの性能は以前と比べて格段に上がっていますが、残念ながらマイクとスピーカーはそうではありません。マイクについては音質は向上しているものの、指向性が無いために周囲の音を拾ってしまいます。そしてPC操作時には、どうしても打鍵音がダイレクトに響いてしまいます。またスピーカーは、まぁ正直全く駄目です。音楽を聞くのにさえ向いていないのに、音声のやり取りなんか出来るわけがない。 マイクとスピーカーは必ず別に用意しましょ

ネガティブなフィードバックをする時に意識したい7つのこと

僕は現在は取締役兼事業本部長という立ち位置でお仕事させて頂いてますが、元々はエンジニアで、かつピープルマネージメントを15年以上しておりました。僕がマネジメントしたメンバーは合算すると200人以上になります。正直に言えば、楽しいことはたくさんあったけれど、もちろん辛いことも多々経験していまして、特にメンバーに対してネガティブなフィードバックをすることは大きな苦しみの一つです。 最近、自分の部署の若いマネージャーから、ネガティブなフィードバックを上手に行うことが難しく課題に感じている、という声があったので、僕の経験をまとめてみました。 ポジティブなフィードバックをセットにして伝える どんな人にとっても、悪い話を聞くことは楽しい経験ではありません。悪い話だけを聞き続けると、不愉快な感情が理性を覆い隠してしまいます。しかしフィードバックとは叱ることではなく、どのように改善していくかを議論するためのきっかけであり、感情的になることはマイナスに働きます。ネガティブなフィードバックを伝える時は、ポジティブなフィードバックをセットに、出来れば先に伝えます。良い点がない人はいません(そんな人は採用していないはずです)から、必ず褒めるポイント、褒めるべきアウトプットがあるはずです。ポジティブなフィードバックをセットすることで、相手の感情のバランスを取ることが出来ます。 ネガティブな内容を責めるのではなく事実として伝える 上述の通り、フィードバックの目的は叱責ではなく改善なので、「なんで出来ないんだ」とか「どうして出来なかったんだ」ではなく、事実としてのネガティブな現状を正確に伝えることが重要です。例えそれが叱責に値する内容であったとしても、どちらか一方が感情的になると必ずもう片方も感情的になるので、冷静に正しく事実のみを伝えます。 期待値を提示する ネガティブなフィードバックには、必ずあるべき姿、こちらが期待していた姿があるはずなので、それを伝えます。その際には一方的に伝えるのではなく、こちらの期待値を根拠と併せて伝え、その上で一緒にその期待値の妥当性を議論します。この期待値のすり合わせをしないと、メンバー本人の振り返りも生まれず、改善のためのアクションも「言われたからやる」だけになってしまいます。 なぜネガティブな結果になったのかをヒアリングする 人それぞれ様々な事情や環境がある

「許可を得るな、謝罪せよ」が意図していること

 弊社ではセルフマネジメントとアウトプットファーストを行動指針として掲げていますが、セルフマネジメントを象徴する言葉としてよく使われるのが 「許可を得るな、謝罪せよ」 です。 細かい話は 以前ブログにした のでそちらを読んで頂くとして、この言葉が意味するのは「アクションするのにいちいち許可を得る必要はない。許可を取る時間が無駄。やっていいですかじゃなくてやりましたと言えばいい。その結果間違っていれば謝れば良いだけ」です。 何故この方針を取るのか、この方針によってどのような結果を期待しているのか、を改めて整理したいと思います。 アクションのスピードを上げたい これは上述した意味の通りで、何らかの施策や企画があるときに、上長の許可を取るために資料を作ったり、打ち合わせしたり、下調べをしたり、という時間が無駄だからです。 この考え方の前提として「小さな失敗を早くたくさんする」というのがあります。どんな施策も企画も、正解なんて誰にもわからないし、やり方次第で変わるものです。アイデアの時点であーだこーだ言うより、実際に手を動かしてやってみて、その結果から継続の判断を行うことで、リスクを小さく、コストも小さく、たくさんアクションすることが出来ます。 モチベーションを持って取り組んでもらいたい 何でもそうですけど、人に言われたことをそのままやるより、自分で考えたことを自分のやり方でやるほうが、面白いです。僕が仕事をする上で、または僕がピープルマネジメントする上で、一番重要視しているのは、面白いかどうか、です。 担当者がモチベーションのないままやって成功することなんて(ほとんど)ありません。その施策や企画の実施に一番モチベーションがあるのはそれを考えた人なので、その人に主導してもらうのが一番成功率が高いです。 主体性を持って取り組んでもらいたい モチベーションと同様に、担当者が主体性のないままやって成功することなんて(ほとんど)ありません。その施策/企画を自分ごととして捉え、だからこそ知恵を絞って、全力を発揮する、つまり主体性を持って取り組むことが、一番成功率が高いです。そしてもちろん、一番主体性を持てるのはそれを考えた人です。 なお、主体性と責任は違います。前述の通り「小さな失敗を早くたくさんする」ためには、失敗に対して責任を追求するのではなく、結果と知見を追求する、という文化が