スキップしてメイン コンテンツに移動

Ruby+MeCab+MySQLでスクリプト書いた

今日は夜勤前の調整日(徹夜して身体のリズムを変更する日)だったので、第5回北海道開発オフの熱気が冷めないうちにプログラムに打ち込んでみました。真剣にプログラムに打ち込むと時間の経つのは早いもので、あっという間に朝です。しかし久しぶりにSQLを弄ったのですが、忘れていることが多くてショックでした。やはり勉強は継続していかないとダメですね。

さて、今日はTwitterのArchiveをMeCabで形態素解析を行い、結果をMySQLのテーブルに保存するスクリプトを作りました。

(1)MySQL本体と、RubyからMySQLを使うためのlibmysql-rubyのインストール。

$ sudo aptitude install mysql-server mysql-client libmysql-ruby

(2)初期ユーザroot/パス無しで使ってみる。

$ mysql -uroot
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 10
Server version: 5.0.32-Debian_7etch6-log Debian etch distribution

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
+--------------------+
2 rows in set (0.00 sec)

(3)rootユーザのパスワードを設定する。

$ su -
# mysqladmin -u root password PASSWORD
# mysqladmin reload

(4)mysqlをUTF-8化する。
現在のキャラクターセットを確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

my.cnfを修正.

$ sudo vi /etc/mysql/my.cnf
以下を各セクションに追加
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-connect = SET NAMES utf8

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

mysqlを再起動。

$ sudo /etc/init.d/mysql restart

確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

(5)プログラム用のDBを作ってみる。

mysql> create database DATABASENAME;
Query OK, 1 row affected (0.02 sec)

mysql> grant all privileges on DATABASENAME.* to USERNAME@localhost identified by 'PASSWORD' with grant option;
mysql>\q
$ mysql -uUSERNAME -pPASSWORD DATABASENAME
mysql>

(6)形態素解析したデータを投入するテーブルを作ってみる。

mysql>create table morpheme (
id int not null auto_increment primary key,
surface text not null,
segment1 text,
segment2 text,
segment3 text,
practical1 text,
practical2 text,
basic text,
reading text,
pronounce text);
Query OK, 0 rows affected (0.01 sec)

mysql> show fields from morpheme;
+------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+---------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| surface | text | NO | | | |
| segment1 | text | YES | | NULL | |
| segment2 | text | YES | | NULL | |
| segment3 | text | YES | | NULL | |
| practical1 | text | YES | | NULL | |
| practical2 | text | YES | | NULL | |
| basic | text | YES | | NULL | |
| reading | text | YES | | NULL | |
| pronounce | text | YES | | NULL | |
+------------+---------+------+-----+---------+----------------+
10 rows in set (0.00 sec)

(7)先日のこれで抽出したTwitterのArchiveから形態素解析してDBに投入するスクリプトを実行。

#!/usr/bin/ruby -Ku

require 'MeCab'
require 'mysql'

begin
c = MeCab::Tagger.new(ARGV.join(" "))
mysql = Mysql::new('localhost','USERNAME','PASSWORD','DATABASENAME')

dfile = open("data.txt",'r')
dfile.each do |sentence|
sentence.chop!
n = c.parseToNode(sentence)
n = n.next

while n do
res_surface = mysql.query("select id,surface from morpheme where surface='#{Mysql.quote n.surface}'")

if res_surface.num_rows == 0
seg1,seg2,seg3,prac1,prac2,basic,read,pron = n.feature.split(/,/)
if read == nil then read="*" end
if pron == nil then pron="*" end

res_insert = mysql.query("insert into morpheme values(NULL,'#{Mysql::quote n.surface}','#{Mysql::quote seg1}','#{Mysql::quote seg2}','#{Mysql::quote seg3}','#{Mysql::quote prac1}','#{Mysql::quote prac2}','#{Mysql::quote basic}','#{Mysql::quote read}','#{Mysql::quote pron}')")
end
n = n.next
end
end
mysql.close
dfile.close

rescue
print "RuntimeError: ", $!, "\n";
end

(8)結果を確認。

mysql> select * from morpheme;
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| id | surface | segment1 | segment2 | segment3 | practical1 | practical2 | basic | reading | pronounce |
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| 9187 | ハッシュ | 名詞 | 一般 | * | * | * | * | ハッシュ | ハッシュ |
| 9188 | 配列 | 名詞 | サ変接続 | * | * | * | * | 配列 | ハイレツ |
| 9189 | から | 助詞 | 格助詞 | 一般 | * | * | * | から | カラ |
| 9190 | うまく | 形容詞 | 自立 | * | * | 形容詞・アウオ段 | 連用テ接続 | うまい | ウマク |
| 9191 | 値 | 名詞 | 一般 | * | * | * | * | 値 | ネ |
| 9192 | 取れ | 動詞 | 自立 | * | * | 一段 | 未然形 | 取れる | トレ |

ちゃんとDBに登録できてるっぽい。現在保持しているデータから54260レコードが抽出できました。

今度は文章の順序(単語Aの後に単語Bが続いてる)というのを蓄積するテーブルを作りたいです。その後は文章を再構成するスクリプト、そしてTwitterのタイムラインからリアルタイムにデータを取得するところ、ですね。

コメント

このブログの人気の投稿

リモートワークは仕組みじゃなくて文化です

ここ最近、コロナウイルス関連の報道が数多くあるが、その中でも多くの企業がリモートワークを推奨するという記事やプレスリリースが注目を浴びている。それ自体はもちろん大変望ましい。不要な対面での接点を減らすことで感染リスクを抑えることが出来るし、通勤ラッシュや首都圏への経済集中も抑制出来るからだ。

だがちょっと待ってほしい。リモートワークというのは社員が在宅で働くことだけを指すのではない。社員が在宅で働いても出社時と同じパフォーマンスが出ることをリモートワークというのだ。だからこの記事のタイトルで「リモートワークは仕組みじゃなくて文化です」と書いた。

弊社がリモートワークを導入したのは2011年の東日本大震災がきっかけだけれど、9年経った今、どのようにリモートワークを運用して、そしてパフォーマンスを維持しているかを共有したいと思う。以下のことが文化として根付けば、その会社のメンバーはリモートワークでもオフィスでも同じようなパフォーマンスが発揮出来るはずだ。

1.勤怠を厳密に管理しない え、だってダルくないすか。管理するの。何時に働き始めて何時に働き終わったかなんて関係ないっしょ。大事なのは働いた結果のアウトプットであり、働いた時間なんか問題じゃない。

2.休憩も厳密に管理しない え、だってダルくないすか。管理するの。何時に休憩し始め(ry

3.工数を厳密に管理しない え、だ(ry

4.目に見えるアウトプットを意識する 当然のことながら、仕事は結果が全てであり、結果が出なければどこで何時間働いたって意味がない。そして結果というのは目に見えなければ意味がない。 だからこそ、アウトプットを出すこと、アウトプットを評価することに徹底的にこだわる。それはドキュメントかもしれないし、お客様やパートナーとコミュニケーションするためのメールかもしれないし、社内の改善活動かもしれないし、メンバーへのフォローかもしれないし、ブログかもしれないし、Slackでの発言かもしれない。 とにかく目に見えないものは周りも認められない。目に見えるアウトプットしか評価されないし、そのために徹底的にアウトプットするんだ、という意識を社内でしっかりと作ることが重要。

5.コミュニケーションコストを意識する どんなに頑張っても、オンラインのコミュニケーションはオフラインのコミュニケーションの密度を越えられない…

これで完璧!本当に役立つテレワークマナー

コロナ禍によってテレワークを導入する企業が増えた昨今、皆様いかがお過ごしでしょうか。僕は4連休明けでダルかったので有給を取得し妻とデートしてきました。イェーイ。さて、弊社も今年2月以降は全社員完全テレワークに移行しました。弊社は2011年からテレワークを導入し各自が自由に活用していたため、特に大きな問題も無くテレワーク体制に移行したのですが、全社員完全テレワークは初めての状況であり、幾つかの課題が発生しました。特に、その状況下でも新しく入社する社員がいますので、これまで社内で培ってきた暗黙の了解が共有出来ないことは大きな課題でした。ということで、本記事では、弊社のテレワークマナーについてご紹介したいと思います。皆さんのご参考になれば幸いです。業務の開始と終了はチャットで宣言するこれはオフィス出社時でもテレワークでも変わらないのですが、業務開始時と業務終了時にはSlackで宣言しています。弊社ではこれを開店/閉店と呼んでいます。気をつけて頂きたいのは、これは報告ではなく共有であるということです。業務開始と業務終了を共有しておくことで、同僚が相談したり依頼をしたりできる時間を把握出来ます。この共有をしておかないと、業務開始前や業務終了後にMentionがバンバン飛んで来るかもしれません。もちろん飛んできたからって怒るメンバーはいないのですが、お互いちょっとした気遣いが出来るように、自分が働いている時間は共有しておくと良いでしょう。これは休憩時間も同様です。昼休みにのんびりゲームしているときにスマホがブーブー鳴っていたら気が散るかもしれません。休憩開始と終了をSlackで宣言することでゆっくり休憩することが出来ます。休憩中はDisplay nameの後ろに「休憩中」等と付けておくのも良いでしょう。マイクとスピーカーはPC内蔵のものを使わないPCの性能は以前と比べて格段に上がっていますが、残念ながらマイクとスピーカーはそうではありません。マイクについては音質は向上しているものの、指向性が無いために周囲の音を拾ってしまいます。そしてPC操作時には、どうしても打鍵音がダイレクトに響いてしまいます。またスピーカーは、まぁ正直全く駄目です。音楽を聞くのにさえ向いていないのに、音声のやり取りなんか出来るわけがない。マイクとスピーカーは必ず別に用意しましょう。必ずしも高価なものである…

ネガティブなフィードバックをする時に意識したい7つのこと

僕は現在は取締役兼事業本部長という立ち位置でお仕事させて頂いてますが、元々はエンジニアで、かつピープルマネージメントを15年以上しておりました。僕がマネジメントしたメンバーは合算すると200人以上になります。正直に言えば、楽しいことはたくさんあったけれど、もちろん辛いことも多々経験していまして、特にメンバーに対してネガティブなフィードバックをすることは大きな苦しみの一つです。
最近、自分の部署の若いマネージャーから、ネガティブなフィードバックを上手に行うことが難しく課題に感じている、という声があったので、僕の経験をまとめてみました。 ポジティブなフィードバックをセットにして伝えるどんな人にとっても、悪い話を聞くことは楽しい経験ではありません。悪い話だけを聞き続けると、不愉快な感情が理性を覆い隠してしまいます。しかしフィードバックとは叱ることではなく、どのように改善していくかを議論するためのきっかけであり、感情的になることはマイナスに働きます。ネガティブなフィードバックを伝える時は、ポジティブなフィードバックをセットに、出来れば先に伝えます。良い点がない人はいません(そんな人は採用していないはずです)から、必ず褒めるポイント、褒めるべきアウトプットがあるはずです。ポジティブなフィードバックをセットすることで、相手の感情のバランスを取ることが出来ます。ネガティブな内容を責めるのではなく事実として伝える上述の通り、フィードバックの目的は叱責ではなく改善なので、「なんで出来ないんだ」とか「どうして出来なかったんだ」ではなく、事実としてのネガティブな現状を正確に伝えることが重要です。例えそれが叱責に値する内容であったとしても、どちらか一方が感情的になると必ずもう片方も感情的になるので、冷静に正しく事実のみを伝えます。期待値を提示するネガティブなフィードバックには、必ずあるべき姿、こちらが期待していた姿があるはずなので、それを伝えます。その際には一方的に伝えるのではなく、こちらの期待値を根拠と併せて伝え、その上で一緒にその期待値の妥当性を議論します。この期待値のすり合わせをしないと、メンバー本人の振り返りも生まれず、改善のためのアクションも「言われたからやる」だけになってしまいます。 なぜネガティブな結果になったのかをヒアリングする人それぞれ様々な事情や環境があるため、どうして…