スキップしてメイン コンテンツに移動

Ruby+MeCab+MySQLでスクリプト書いた

今日は夜勤前の調整日(徹夜して身体のリズムを変更する日)だったので、第5回北海道開発オフの熱気が冷めないうちにプログラムに打ち込んでみました。真剣にプログラムに打ち込むと時間の経つのは早いもので、あっという間に朝です。しかし久しぶりにSQLを弄ったのですが、忘れていることが多くてショックでした。やはり勉強は継続していかないとダメですね。

さて、今日はTwitterのArchiveをMeCabで形態素解析を行い、結果をMySQLのテーブルに保存するスクリプトを作りました。

(1)MySQL本体と、RubyからMySQLを使うためのlibmysql-rubyのインストール。

$ sudo aptitude install mysql-server mysql-client libmysql-ruby

(2)初期ユーザroot/パス無しで使ってみる。

$ mysql -uroot
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 10
Server version: 5.0.32-Debian_7etch6-log Debian etch distribution

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
+--------------------+
2 rows in set (0.00 sec)

(3)rootユーザのパスワードを設定する。

$ su -
# mysqladmin -u root password PASSWORD
# mysqladmin reload

(4)mysqlをUTF-8化する。
現在のキャラクターセットを確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

my.cnfを修正.

$ sudo vi /etc/mysql/my.cnf
以下を各セクションに追加
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-connect = SET NAMES utf8

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

mysqlを再起動。

$ sudo /etc/init.d/mysql restart

確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

(5)プログラム用のDBを作ってみる。

mysql> create database DATABASENAME;
Query OK, 1 row affected (0.02 sec)

mysql> grant all privileges on DATABASENAME.* to USERNAME@localhost identified by 'PASSWORD' with grant option;
mysql>\q
$ mysql -uUSERNAME -pPASSWORD DATABASENAME
mysql>

(6)形態素解析したデータを投入するテーブルを作ってみる。

mysql>create table morpheme (
id int not null auto_increment primary key,
surface text not null,
segment1 text,
segment2 text,
segment3 text,
practical1 text,
practical2 text,
basic text,
reading text,
pronounce text);
Query OK, 0 rows affected (0.01 sec)

mysql> show fields from morpheme;
+------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+---------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| surface | text | NO | | | |
| segment1 | text | YES | | NULL | |
| segment2 | text | YES | | NULL | |
| segment3 | text | YES | | NULL | |
| practical1 | text | YES | | NULL | |
| practical2 | text | YES | | NULL | |
| basic | text | YES | | NULL | |
| reading | text | YES | | NULL | |
| pronounce | text | YES | | NULL | |
+------------+---------+------+-----+---------+----------------+
10 rows in set (0.00 sec)

(7)先日のこれで抽出したTwitterのArchiveから形態素解析してDBに投入するスクリプトを実行。

#!/usr/bin/ruby -Ku

require 'MeCab'
require 'mysql'

begin
c = MeCab::Tagger.new(ARGV.join(" "))
mysql = Mysql::new('localhost','USERNAME','PASSWORD','DATABASENAME')

dfile = open("data.txt",'r')
dfile.each do |sentence|
sentence.chop!
n = c.parseToNode(sentence)
n = n.next

while n do
res_surface = mysql.query("select id,surface from morpheme where surface='#{Mysql.quote n.surface}'")

if res_surface.num_rows == 0
seg1,seg2,seg3,prac1,prac2,basic,read,pron = n.feature.split(/,/)
if read == nil then read="*" end
if pron == nil then pron="*" end

res_insert = mysql.query("insert into morpheme values(NULL,'#{Mysql::quote n.surface}','#{Mysql::quote seg1}','#{Mysql::quote seg2}','#{Mysql::quote seg3}','#{Mysql::quote prac1}','#{Mysql::quote prac2}','#{Mysql::quote basic}','#{Mysql::quote read}','#{Mysql::quote pron}')")
end
n = n.next
end
end
mysql.close
dfile.close

rescue
print "RuntimeError: ", $!, "\n";
end

(8)結果を確認。

mysql> select * from morpheme;
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| id | surface | segment1 | segment2 | segment3 | practical1 | practical2 | basic | reading | pronounce |
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| 9187 | ハッシュ | 名詞 | 一般 | * | * | * | * | ハッシュ | ハッシュ |
| 9188 | 配列 | 名詞 | サ変接続 | * | * | * | * | 配列 | ハイレツ |
| 9189 | から | 助詞 | 格助詞 | 一般 | * | * | * | から | カラ |
| 9190 | うまく | 形容詞 | 自立 | * | * | 形容詞・アウオ段 | 連用テ接続 | うまい | ウマク |
| 9191 | 値 | 名詞 | 一般 | * | * | * | * | 値 | ネ |
| 9192 | 取れ | 動詞 | 自立 | * | * | 一段 | 未然形 | 取れる | トレ |

ちゃんとDBに登録できてるっぽい。現在保持しているデータから54260レコードが抽出できました。

今度は文章の順序(単語Aの後に単語Bが続いてる)というのを蓄積するテーブルを作りたいです。その後は文章を再構成するスクリプト、そしてTwitterのタイムラインからリアルタイムにデータを取得するところ、ですね。

このブログの人気の投稿

自走する組織に必要なのはルールではなくガイドライン

ということをいつも心がけている、という話です。 僕が組織のマネジメント職を20年ほどやらせてもらっている上で、いつも意識しているのは権限移譲とセルフマネジメントです。この辺の話は過去のブログにも書きました。 管理職のためのエンジニア組織構築マニュアル 管理職のための役職引退マニュアル 現場に口を出さないマネージャーの作り方 つまり「権限と裁量を同時に移譲し、責任感を持ってプロアクティブに仕事をしてもらいながらも、メンバーの良いところを更に引き出して高いパフォーマンスを出してもらう」ことこそが、マネジメント職のやるべきことだと思っています。 そのために僕がいつも権限移譲の際に伝えるのは、ルールではなくガイドラインです。ルールは規則や規定といった決まりごとなので「やること」「やってはいけないこと」が書かれたものです。ガイドラインは大まかな指針なので「方向性」「やったほうがいいこと」「やらないほうがいいこと」が書かれたものです。 ルールを提示した場合、そのとおりにすれば過去の実績からある程度の成功は見込めるものの、状況に応じた柔軟な判断が出来ませんし、メンバーの考えや意見が行動に反映されません。メンバーはルール通りの行動しか出来ず、結果としてルールを作成した人以上の成果は出せなくなってしまいます。 ガイドラインの場合、会社として望ましいと考える方向性だけが書かれているので、状況に応じた柔軟な判断も出来ますし、メンバーが考えるより良いやり方や行動を取り入れることが出来ます。ガイドラインを作成した人以上の良いアイデアがあればガイドラインをアップデートすることも出来ます。 これは権限移譲だけでなく、育成においても同様だと僕は考えます。1から10まで決まりきったカリキュラムをやらせることも時には(あるいは人によっては)必要だけれど、本当に価値のある育成は、メンバーに目指してほしい姿を伝え、現在とのギャップを一緒に認識し、そのギャップを埋めるための多種多様な方法を伝えて、その上で本人が取捨選択して自分自身で学習していく。企業や上長はそのサポートを行う。というのが、最も成長出来る育成方法だと思います。 学習する組織 ― システム思考で未来を創造する posted with AmaQuick at 2

努力できること自体が才能なので、努力しただけで褒められるべき

発明王トーマス・エジソンの名言としてよく知られる「天才とは1%のひらめきと99%の努力である」という言葉があります。実際の意図は「1%のひらめきがなければ、99%の努力は無駄になる」であったとも 言われています が、まぁどちらにせよ、ひらめきだけでは成功することはできず、そこには必ず努力も必要となります。 漫画「はじめの一歩」において主人公の師匠である鴨川会長は「努力した者が全て報われるとは限らん。しかし、成功した者は皆すべからく努力しておる」と言っていました。ここにも、成功において努力は必要不可欠であるとの強いメッセージがあります。 しかし、実際には誰もが努力できるわけではありません。 努力できること自体が才能 なのだと思います。 努力をしないことが問題だと言うつもりはありませんし、努力をしないという選択肢を選ぶことは個人の自由だと思います。必ずしも成功が万人の幸せなわけではないし、成功しなくても得られる生活によって満足する人だっています。 僕が言いたいのは「そもそも努力できない人がいる」という事実です。こういう方は選択の余地が無く、何かにおいて1位になったり、一流になったり、勝利したり、成功したりすることは難しくなります。それらには必ず努力が必要になるからであり、そして努力ができない、努力をする才能が無いからです。 これには実験の裏付けがあります。詳しくは10年前の WIREDの記事 に書かれていますが、ざっくり言うと、脳内の一部(左線条体と前頭前皮質腹内側部)におけるドーパミン作動性活性が高いと努力ができる、違う一部( 島皮質)の ドーパミン作動性活性が高いと努力できない、という実験結果があります。そもそも脳の作りや働きによって努力ができる人とできない人がいる、ということです。 繰り返しになりますが、僕は努力しない人が悪いとも思っていないし、責めるつもりもありません。僕が言いたいのは以下の2点です。 (1)努力できること自体が才能であり、その才能が無い人はそもそも努力ができないので 、努力できないことを責めてはいけない。 それは本人の特性であり個性だから。 (2)努力できること自体がすごいことなので、努力した結果が成功に結びつかなかったとしても、責めてはいけない。 努力しただけで褒められてよい。 人にはそれぞれ適材適所があるので、めちゃくちゃ努力する人は努力が

組織を構成するビルダー、フォロワー、ワーカーについて

僕の経験上、新しい事業体を立ち上げたときの組織構成は大きく3つに分かれる。というか3つのタイプを必要とする。なお、ここではそもそもパフォーマンスが出ない人を含めていない。 その事業を成功させることに高いモチベーションがあり、その結果の責任も積極的に取るタイプ。会社の創業者とか新部門の責任者とか、立ち上げメンバーがコレに当たる。 もともとはその事業に対して特にモチベーションが無いんだけど、事業を担当することによって深くコミットし、結果としてモチベーションが高くなるタイプ。 事業に対するモチベーションが無いからコミットもしないんだけど、担当する業務はしっかりとこなすタイプ。 1をビルダー、2をフォロワー、3をワーカーとこの記事では呼称する。 事業が立ち上がったばかりの組織構成として、ビルダーは当然少ない。可能な限りフォロワーを増やすことを僕はお薦めする。事業のスタート時期というのは不足していたりそもそも無かったりすることがたくさんあり、それらをプロアクティブに拾い続けて解決するためにはモチベーションが必要だからだ。この時期の組織では、業務に対して合うスキルセットの人を採用する(=ワーカー)より、企業理念や事業ビジョンにコミットしてくれる人(フォロワー)を採用したほうがスピードが上がる。ワーカーがあまりに多いと作業指示が無いゆえの作業待ちが発生し、スピードが上がらない。比率的には1:6:3くらい。 事業がある程度立ち上がって順調に拡大するフェーズになると、今度はフォロワーをどうやってビルダーに成長させるか、ワーカーをどうやってフォロワーに成長させるか、が課題になる。このくらいのフェーズではマネジメント教育とかコーチング研修なんかが必要になる。企業理念や事業ビジョンを更に明確にし、言い続け、常に意識させる作業が必要になる。 そして、ある程度事業の形が出来てくると、ふわふわした仕事が少なくなるので、ワーカーを業務に対してアサインしやすくなる。こうなると2:4:4くらいの比率でも上手くいく。それでもワーカーを過半数以上にするのは僕はおすすめしない。事業にコミットしない人が増えると組織全体が「コミットしないのが当たり前」「コミットしない人が評価されて不公平」みたいな空気感が生まれちゃうことが多い。なので過半数以上は事業にコミットする人で固めたほうが良い。 つまり、組織の責任者は「