スキップしてメイン コンテンツに移動

Ruby+MeCab+MySQLでスクリプト書いた

今日は夜勤前の調整日(徹夜して身体のリズムを変更する日)だったので、第5回北海道開発オフの熱気が冷めないうちにプログラムに打ち込んでみました。真剣にプログラムに打ち込むと時間の経つのは早いもので、あっという間に朝です。しかし久しぶりにSQLを弄ったのですが、忘れていることが多くてショックでした。やはり勉強は継続していかないとダメですね。

さて、今日はTwitterのArchiveをMeCabで形態素解析を行い、結果をMySQLのテーブルに保存するスクリプトを作りました。

(1)MySQL本体と、RubyからMySQLを使うためのlibmysql-rubyのインストール。

$ sudo aptitude install mysql-server mysql-client libmysql-ruby

(2)初期ユーザroot/パス無しで使ってみる。

$ mysql -uroot
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 10
Server version: 5.0.32-Debian_7etch6-log Debian etch distribution

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
+--------------------+
2 rows in set (0.00 sec)

(3)rootユーザのパスワードを設定する。

$ su -
# mysqladmin -u root password PASSWORD
# mysqladmin reload

(4)mysqlをUTF-8化する。
現在のキャラクターセットを確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

my.cnfを修正.

$ sudo vi /etc/mysql/my.cnf
以下を各セクションに追加
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-connect = SET NAMES utf8

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

mysqlを再起動。

$ sudo /etc/init.d/mysql restart

確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

(5)プログラム用のDBを作ってみる。

mysql> create database DATABASENAME;
Query OK, 1 row affected (0.02 sec)

mysql> grant all privileges on DATABASENAME.* to USERNAME@localhost identified by 'PASSWORD' with grant option;
mysql>\q
$ mysql -uUSERNAME -pPASSWORD DATABASENAME
mysql>

(6)形態素解析したデータを投入するテーブルを作ってみる。

mysql>create table morpheme (
id int not null auto_increment primary key,
surface text not null,
segment1 text,
segment2 text,
segment3 text,
practical1 text,
practical2 text,
basic text,
reading text,
pronounce text);
Query OK, 0 rows affected (0.01 sec)

mysql> show fields from morpheme;
+------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+---------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| surface | text | NO | | | |
| segment1 | text | YES | | NULL | |
| segment2 | text | YES | | NULL | |
| segment3 | text | YES | | NULL | |
| practical1 | text | YES | | NULL | |
| practical2 | text | YES | | NULL | |
| basic | text | YES | | NULL | |
| reading | text | YES | | NULL | |
| pronounce | text | YES | | NULL | |
+------------+---------+------+-----+---------+----------------+
10 rows in set (0.00 sec)

(7)先日のこれで抽出したTwitterのArchiveから形態素解析してDBに投入するスクリプトを実行。

#!/usr/bin/ruby -Ku

require 'MeCab'
require 'mysql'

begin
c = MeCab::Tagger.new(ARGV.join(" "))
mysql = Mysql::new('localhost','USERNAME','PASSWORD','DATABASENAME')

dfile = open("data.txt",'r')
dfile.each do |sentence|
sentence.chop!
n = c.parseToNode(sentence)
n = n.next

while n do
res_surface = mysql.query("select id,surface from morpheme where surface='#{Mysql.quote n.surface}'")

if res_surface.num_rows == 0
seg1,seg2,seg3,prac1,prac2,basic,read,pron = n.feature.split(/,/)
if read == nil then read="*" end
if pron == nil then pron="*" end

res_insert = mysql.query("insert into morpheme values(NULL,'#{Mysql::quote n.surface}','#{Mysql::quote seg1}','#{Mysql::quote seg2}','#{Mysql::quote seg3}','#{Mysql::quote prac1}','#{Mysql::quote prac2}','#{Mysql::quote basic}','#{Mysql::quote read}','#{Mysql::quote pron}')")
end
n = n.next
end
end
mysql.close
dfile.close

rescue
print "RuntimeError: ", $!, "\n";
end

(8)結果を確認。

mysql> select * from morpheme;
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| id | surface | segment1 | segment2 | segment3 | practical1 | practical2 | basic | reading | pronounce |
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| 9187 | ハッシュ | 名詞 | 一般 | * | * | * | * | ハッシュ | ハッシュ |
| 9188 | 配列 | 名詞 | サ変接続 | * | * | * | * | 配列 | ハイレツ |
| 9189 | から | 助詞 | 格助詞 | 一般 | * | * | * | から | カラ |
| 9190 | うまく | 形容詞 | 自立 | * | * | 形容詞・アウオ段 | 連用テ接続 | うまい | ウマク |
| 9191 | 値 | 名詞 | 一般 | * | * | * | * | 値 | ネ |
| 9192 | 取れ | 動詞 | 自立 | * | * | 一段 | 未然形 | 取れる | トレ |

ちゃんとDBに登録できてるっぽい。現在保持しているデータから54260レコードが抽出できました。

今度は文章の順序(単語Aの後に単語Bが続いてる)というのを蓄積するテーブルを作りたいです。その後は文章を再構成するスクリプト、そしてTwitterのタイムラインからリアルタイムにデータを取得するところ、ですね。

コメント

このブログの人気の投稿

これで完璧!本当に役立つテレワークマナー

コロナ禍によってテレワークを導入する企業が増えた昨今、皆様いかがお過ごしでしょうか。僕は4連休明けでダルかったので有給を取得し妻とデートしてきました。イェーイ。 さて、 弊社 も今年2月以降は全社員完全テレワークに移行しました。弊社は2011年からテレワークを導入し各自が自由に活用していたため、特に大きな問題も無くテレワーク体制に移行したのですが、全社員完全テレワークは初めての状況であり、幾つかの課題が発生しました。特に、その状況下でも新しく入社する社員がいますので、これまで社内で培ってきた暗黙の了解が共有出来ないことは大きな課題でした。 ということで、本記事では、弊社のテレワークマナーについてご紹介したいと思います。皆さんのご参考になれば幸いです。 業務の開始と終了はチャットで宣言する これはオフィス出社時でもテレワークでも変わらないのですが、業務開始時と業務終了時にはSlackで宣言しています。弊社ではこれを開店/閉店と呼んでいます。 気をつけて頂きたいのは、これは 報告ではなく共有である ということです。業務開始と業務終了を共有しておくことで、同僚が相談したり依頼をしたりできる時間を把握出来ます。この共有をしておかないと、業務開始前や業務終了後にMentionがバンバン飛んで来るかもしれません。もちろん飛んできたからって怒るメンバーはいないのですが、お互いちょっとした気遣いが出来るように、自分が働いている時間は共有しておくと良いでしょう。 これは休憩時間も同様です。昼休みにのんびりゲームしているときにスマホがブーブー鳴っていたら気が散るかもしれません。休憩開始と終了をSlackで宣言することでゆっくり休憩することが出来ます。休憩中は Display name の後ろに「休憩中」等と付けておくのも良いでしょう。 マイクとスピーカーはPC内蔵のものを使わない PCの性能は以前と比べて格段に上がっていますが、残念ながらマイクとスピーカーはそうではありません。マイクについては音質は向上しているものの、指向性が無いために周囲の音を拾ってしまいます。そしてPC操作時には、どうしても打鍵音がダイレクトに響いてしまいます。またスピーカーは、まぁ正直全く駄目です。音楽を聞くのにさえ向いていないのに、音声のやり取りなんか出来るわけがない。 マイクとスピーカーは必ず別に用意しましょ

「許可を得るな、謝罪せよ」が意図していること

 弊社ではセルフマネジメントとアウトプットファーストを行動指針として掲げていますが、セルフマネジメントを象徴する言葉としてよく使われるのが 「許可を得るな、謝罪せよ」 です。 細かい話は 以前ブログにした のでそちらを読んで頂くとして、この言葉が意味するのは「アクションするのにいちいち許可を得る必要はない。許可を取る時間が無駄。やっていいですかじゃなくてやりましたと言えばいい。その結果間違っていれば謝れば良いだけ」です。 何故この方針を取るのか、この方針によってどのような結果を期待しているのか、を改めて整理したいと思います。 アクションのスピードを上げたい これは上述した意味の通りで、何らかの施策や企画があるときに、上長の許可を取るために資料を作ったり、打ち合わせしたり、下調べをしたり、という時間が無駄だからです。 この考え方の前提として「小さな失敗を早くたくさんする」というのがあります。どんな施策も企画も、正解なんて誰にもわからないし、やり方次第で変わるものです。アイデアの時点であーだこーだ言うより、実際に手を動かしてやってみて、その結果から継続の判断を行うことで、リスクを小さく、コストも小さく、たくさんアクションすることが出来ます。 モチベーションを持って取り組んでもらいたい 何でもそうですけど、人に言われたことをそのままやるより、自分で考えたことを自分のやり方でやるほうが、面白いです。僕が仕事をする上で、または僕がピープルマネジメントする上で、一番重要視しているのは、面白いかどうか、です。 担当者がモチベーションのないままやって成功することなんて(ほとんど)ありません。その施策や企画の実施に一番モチベーションがあるのはそれを考えた人なので、その人に主導してもらうのが一番成功率が高いです。 主体性を持って取り組んでもらいたい モチベーションと同様に、担当者が主体性のないままやって成功することなんて(ほとんど)ありません。その施策/企画を自分ごととして捉え、だからこそ知恵を絞って、全力を発揮する、つまり主体性を持って取り組むことが、一番成功率が高いです。そしてもちろん、一番主体性を持てるのはそれを考えた人です。 なお、主体性と責任は違います。前述の通り「小さな失敗を早くたくさんする」ためには、失敗に対して責任を追求するのではなく、結果と知見を追求する、という文化が

組織を構成するビルダー、フォロワー、ワーカーについて

僕の経験上、新しい事業体を立ち上げたときの組織構成は大きく3つに分かれる。というか3つのタイプを必要とする。なお、ここではそもそもパフォーマンスが出ない人を含めていない。 その事業を成功させることに高いモチベーションがあり、その結果の責任も積極的に取るタイプ。会社の創業者とか新部門の責任者とか、立ち上げメンバーがコレに当たる。 もともとはその事業に対して特にモチベーションが無いんだけど、事業を担当することによって深くコミットし、結果としてモチベーションが高くなるタイプ。 事業に対するモチベーションが無いからコミットもしないんだけど、担当する業務はしっかりとこなすタイプ。 1をビルダー、2をフォロワー、3をワーカーとこの記事では呼称する。 事業が立ち上がったばかりの組織構成として、ビルダーは当然少ない。可能な限りフォロワーを増やすことを僕はお薦めする。事業のスタート時期というのは不足していたりそもそも無かったりすることがたくさんあり、それらをプロアクティブに拾い続けて解決するためにはモチベーションが必要だからだ。この時期の組織では、業務に対して合うスキルセットの人を採用する(=ワーカー)より、企業理念や事業ビジョンにコミットしてくれる人(フォロワー)を採用したほうがスピードが上がる。ワーカーがあまりに多いと作業指示が無いゆえの作業待ちが発生し、スピードが上がらない。比率的には1:6:3くらい。 事業がある程度立ち上がって順調に拡大するフェーズになると、今度はフォロワーをどうやってビルダーに成長させるか、ワーカーをどうやってフォロワーに成長させるか、が課題になる。このくらいのフェーズではマネジメント教育とかコーチング研修なんかが必要になる。企業理念や事業ビジョンを更に明確にし、言い続け、常に意識させる作業が必要になる。 そして、ある程度事業の形が出来てくると、ふわふわした仕事が少なくなるので、ワーカーを業務に対してアサインしやすくなる。こうなると2:4:4くらいの比率でも上手くいく。それでもワーカーを過半数以上にするのは僕はおすすめしない。事業にコミットしない人が増えると組織全体が「コミットしないのが当たり前」「コミットしない人が評価されて不公平」みたいな空気感が生まれちゃうことが多い。なので過半数以上は事業にコミットする人で固めたほうが良い。 つまり、組織の責任者は「