Ruby+MeCab+MySQLでスクリプト書いた

9月 23, 2008

今日は夜勤前の調整日(徹夜して身体のリズムを変更する日)だったので、第5回北海道開発オフの熱気が冷めないうちにプログラムに打ち込んでみました。真剣にプログラムに打ち込むと時間の経つのは早いもので、あっという間に朝です。しかし久しぶりにSQLを弄ったのですが、忘れていることが多くてショックでした。やはり勉強は継続していかないとダメですね。

さて、今日はTwitterのArchiveをMeCabで形態素解析を行い、結果をMySQLのテーブルに保存するスクリプトを作りました。

(1)MySQL本体と、RubyからMySQLを使うためのlibmysql-rubyのインストール。


$ sudo aptitude install mysql-server mysql-client libmysql-ruby

(2)初期ユーザroot/パス無しで使ってみる。


$ mysql -uroot
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 10
Server version: 5.0.32-Debian_7etch6-log Debian etch distribution

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| mysql              |
+--------------------+
2 rows in set (0.00 sec)

(3)rootユーザのパスワードを設定する。


$ su -
# mysqladmin -u root password PASSWORD
# mysqladmin reload

(4)mysqlをUTF-8化する。
現在のキャラクターセットを確認。


mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name            | Value  |
+--------------------------+--------+
| character_set_client     | latin1 |
| character_set_connection | latin1 |
| character_set_database   | latin1 |
| character_set_filesystem | binary |
| character_set_results    | latin1 |
| character_set_server     | latin1 |
| character_set_system     | utf8   |
+--------------------------+--------+
7 rows in set (0.00 sec)

my.cnfを修正.


$ sudo vi /etc/mysql/my.cnf
以下を各セクションに追加
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-connect = SET NAMES utf8

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

mysqlを再起動。


$ sudo /etc/init.d/mysql restart

確認。


mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name            | Value  |
+--------------------------+--------+
| character_set_client     | utf8   |
| character_set_connection | utf8   |
| character_set_database   | utf8   |
| character_set_filesystem | binary |
| character_set_results    | utf8   |
| character_set_server     | utf8   |
| character_set_system     | utf8   |
+--------------------------+--------+
7 rows in set (0.00 sec)

(5)プログラム用のDBを作ってみる。


mysql> create database DATABASENAME;
Query OK, 1 row affected (0.02 sec)

mysql> grant all privileges on DATABASENAME.* to USERNAME@localhost identified by 'PASSWORD' with grant option;
mysql>\q
$ mysql -uUSERNAME -pPASSWORD DATABASENAME
mysql>

(6)形態素解析したデータを投入するテーブルを作ってみる。


mysql>create table morpheme (
id int not null auto_increment primary key, 
surface text not null,
segment1 text,
segment2 text,
segment3 text,
practical1 text,
practical2 text,
basic text,
reading text,
pronounce text);
Query OK, 0 rows affected (0.01 sec)

mysql> show fields from morpheme;
+------------+---------+------+-----+---------+----------------+
| Field      | Type    | Null | Key | Default | Extra          |
+------------+---------+------+-----+---------+----------------+
| id         | int(11) | NO   | PRI | NULL    | auto_increment |
| surface    | text    | NO   |     |         |                |
| segment1   | text    | YES  |     | NULL    |                |
| segment2   | text    | YES  |     | NULL    |                |
| segment3   | text    | YES  |     | NULL    |                |
| practical1 | text    | YES  |     | NULL    |                |
| practical2 | text    | YES  |     | NULL    |                |
| basic      | text    | YES  |     | NULL    |                |
| reading    | text    | YES  |     | NULL    |                |
| pronounce  | text    | YES  |     | NULL    |                |
+------------+---------+------+-----+---------+----------------+
10 rows in set (0.00 sec)

(7)先日のこれで抽出したTwitterのArchiveから形態素解析してDBに投入するスクリプトを実行。


#!/usr/bin/ruby -Ku

require 'MeCab'
require 'mysql'

begin
  c = MeCab::Tagger.new(ARGV.join(" "))
  mysql = Mysql::new('localhost','USERNAME','PASSWORD','DATABASENAME')

  dfile = open("data.txt",'r')
  dfile.each do |sentence|
    sentence.chop!
    n = c.parseToNode(sentence)
    n = n.next

    while n do
     res_surface = mysql.query("select id,surface from morpheme where surface='#{Mysql.quote n.surface}'")

      if res_surface.num_rows == 0
        seg1,seg2,seg3,prac1,prac2,basic,read,pron = n.feature.split(/,/)
        if read == nil then read="*" end
        if pron == nil then pron="*" end

        res_insert = mysql.query("insert into morpheme values(NULL,'#{Mysql::quote n.surface}','#{Mysql::quote seg1}','#{Mysql::quote seg2}','#{Mysql::quote seg3}','#{Mysql::quote prac1}','#{Mysql::quote prac2}','#{Mysql::quote basic}','#{Mysql::quote read}','#{Mysql::quote pron}')")
      end
      n = n.next
    end
  end
  mysql.close
  dfile.close

rescue
      print "RuntimeError: ", $!, "\n";
end

(8)結果を確認。


mysql> select * from morpheme;
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| id   | surface                  | segment1     | segment2                             | segment3           | practical1 | practical2               | basic                 | reading            | pronounce                   |
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| 9187 | ハッシュ                 | 名詞         | 一般                                 | *                  | *          | *                        | *                     | ハッシュ           | ハッシュ                    |
| 9188 | 配列                     | 名詞         | サ変接続                             | *                  | *          | *                        | *                     | 配列               | ハイレツ                    |
| 9189 | から                     | 助詞         | 格助詞                               | 一般               | *          | *                        | *                     | から               | カラ                        |
| 9190 | うまく                   | 形容詞       | 自立                                 | *                  | *          | 形容詞・アウオ段         | 連用テ接続            | うまい             | ウマク                      |
| 9191 | 値                       | 名詞         | 一般                                 | *                  | *          | *                        | *                     | 値                 | ネ                          |
| 9192 | 取れ                     | 動詞         | 自立                                 | *                  | *          | 一段                     | 未然形                | 取れる             | トレ                        |

ちゃんとDBに登録できてるっぽい。現在保持しているデータから54260レコードが抽出できました。

今度は文章の順序(単語Aの後に単語Bが続いてる)というのを蓄積するテーブルを作りたいです。その後は文章を再構成するスクリプト、そしてTwitterのタイムラインからリアルタイムにデータを取得するところ、ですね。

[-煙猴-]

Ruby+MeCab+MySQLでスクリプト書いた

このブログの人気の投稿

転職して1年が経ちました

46歳になりました

転職のお知らせ