スキップしてメイン コンテンツに移動

Ruby+MeCab+MySQLでスクリプト書いた

今日は夜勤前の調整日(徹夜して身体のリズムを変更する日)だったので、第5回北海道開発オフの熱気が冷めないうちにプログラムに打ち込んでみました。真剣にプログラムに打ち込むと時間の経つのは早いもので、あっという間に朝です。しかし久しぶりにSQLを弄ったのですが、忘れていることが多くてショックでした。やはり勉強は継続していかないとダメですね。

さて、今日はTwitterのArchiveをMeCabで形態素解析を行い、結果をMySQLのテーブルに保存するスクリプトを作りました。

(1)MySQL本体と、RubyからMySQLを使うためのlibmysql-rubyのインストール。

$ sudo aptitude install mysql-server mysql-client libmysql-ruby

(2)初期ユーザroot/パス無しで使ってみる。

$ mysql -uroot
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 10
Server version: 5.0.32-Debian_7etch6-log Debian etch distribution

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
+--------------------+
2 rows in set (0.00 sec)

(3)rootユーザのパスワードを設定する。

$ su -
# mysqladmin -u root password PASSWORD
# mysqladmin reload

(4)mysqlをUTF-8化する。
現在のキャラクターセットを確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

my.cnfを修正.

$ sudo vi /etc/mysql/my.cnf
以下を各セクションに追加
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-connect = SET NAMES utf8

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

mysqlを再起動。

$ sudo /etc/init.d/mysql restart

確認。

mysql> SHOW VARIABLES LIKE 'character\_set\_%';
+--------------------------+--------+
| Variable_name | Value |
+--------------------------+--------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
+--------------------------+--------+
7 rows in set (0.00 sec)

(5)プログラム用のDBを作ってみる。

mysql> create database DATABASENAME;
Query OK, 1 row affected (0.02 sec)

mysql> grant all privileges on DATABASENAME.* to USERNAME@localhost identified by 'PASSWORD' with grant option;
mysql>\q
$ mysql -uUSERNAME -pPASSWORD DATABASENAME
mysql>

(6)形態素解析したデータを投入するテーブルを作ってみる。

mysql>create table morpheme (
id int not null auto_increment primary key,
surface text not null,
segment1 text,
segment2 text,
segment3 text,
practical1 text,
practical2 text,
basic text,
reading text,
pronounce text);
Query OK, 0 rows affected (0.01 sec)

mysql> show fields from morpheme;
+------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+---------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| surface | text | NO | | | |
| segment1 | text | YES | | NULL | |
| segment2 | text | YES | | NULL | |
| segment3 | text | YES | | NULL | |
| practical1 | text | YES | | NULL | |
| practical2 | text | YES | | NULL | |
| basic | text | YES | | NULL | |
| reading | text | YES | | NULL | |
| pronounce | text | YES | | NULL | |
+------------+---------+------+-----+---------+----------------+
10 rows in set (0.00 sec)

(7)先日のこれで抽出したTwitterのArchiveから形態素解析してDBに投入するスクリプトを実行。

#!/usr/bin/ruby -Ku

require 'MeCab'
require 'mysql'

begin
c = MeCab::Tagger.new(ARGV.join(" "))
mysql = Mysql::new('localhost','USERNAME','PASSWORD','DATABASENAME')

dfile = open("data.txt",'r')
dfile.each do |sentence|
sentence.chop!
n = c.parseToNode(sentence)
n = n.next

while n do
res_surface = mysql.query("select id,surface from morpheme where surface='#{Mysql.quote n.surface}'")

if res_surface.num_rows == 0
seg1,seg2,seg3,prac1,prac2,basic,read,pron = n.feature.split(/,/)
if read == nil then read="*" end
if pron == nil then pron="*" end

res_insert = mysql.query("insert into morpheme values(NULL,'#{Mysql::quote n.surface}','#{Mysql::quote seg1}','#{Mysql::quote seg2}','#{Mysql::quote seg3}','#{Mysql::quote prac1}','#{Mysql::quote prac2}','#{Mysql::quote basic}','#{Mysql::quote read}','#{Mysql::quote pron}')")
end
n = n.next
end
end
mysql.close
dfile.close

rescue
print "RuntimeError: ", $!, "\n";
end

(8)結果を確認。

mysql> select * from morpheme;
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| id | surface | segment1 | segment2 | segment3 | practical1 | practical2 | basic | reading | pronounce |
+------+--------------------------+--------------+--------------------------------------+--------------------+------------+--------------------------+-----------------------+--------------------+-----------------------------+
| 9187 | ハッシュ | 名詞 | 一般 | * | * | * | * | ハッシュ | ハッシュ |
| 9188 | 配列 | 名詞 | サ変接続 | * | * | * | * | 配列 | ハイレツ |
| 9189 | から | 助詞 | 格助詞 | 一般 | * | * | * | から | カラ |
| 9190 | うまく | 形容詞 | 自立 | * | * | 形容詞・アウオ段 | 連用テ接続 | うまい | ウマク |
| 9191 | 値 | 名詞 | 一般 | * | * | * | * | 値 | ネ |
| 9192 | 取れ | 動詞 | 自立 | * | * | 一段 | 未然形 | 取れる | トレ |

ちゃんとDBに登録できてるっぽい。現在保持しているデータから54260レコードが抽出できました。

今度は文章の順序(単語Aの後に単語Bが続いてる)というのを蓄積するテーブルを作りたいです。その後は文章を再構成するスクリプト、そしてTwitterのタイムラインからリアルタイムにデータを取得するところ、ですね。

このブログの人気の投稿

初めての給与交渉で意識するべき6つのポイント

本記事は、社会人となって1〜3年目くらいの方が、給与アップのためにどのように考え、どのようにアクションするべきなのかを、僕の経験を踏まえてまとめたものです。 背景として、僕が初めて働いたIT企業は、年棒制で給与交渉は各自が行うものであり、年次で成果レポートと希望する年収額を会社に提示し、それが査定されて翌年の年俸が確定する、という制度でした。なので僕自身は若い頃からずっと給与交渉をし続けています。 大前提:給与とは与えられるものではなく勝ち取るものである 給与は勝手に上がるものではありません。自分の努力や成果を誰か(=会社や上長)が適切に判断し公平に給与を払ってくれる、なんてことはありません。何故なら多くの仕事は定量的なだけでは評価できず、そこに定性的な判断を必要とするからです。そして人間に公平で完璧な意思決定を求めるのはそもそも無理です。人間は感情的で、多くのバイアスを持ち、その時々のコンディションで常に意思決定が歪みます。だからこそ、定性的な評価に関する成果は、被評価者自身が自らアピールしないと評価者に正しく伝わりません(ただしアピールしたところで正しく伝わらないこともあります) もちろん定量的なだけで評価できる仕事は世の中にはあるし、その場合は給与はその成果に比例して決まり、人間の判断は必要としません。でもそうではない、定性的な評価が含まれる仕事をしているのであれば、自ら自分が何をし、どのような成果を出したのかを、きちんと会社に伝え、その分の給与を要求する、というアクションが必要になります。 大前提:給与は会社が儲かっていないと上がらない これもまぁ当たり前ですよね。会社は利益が出てるから社員に投資できる=社員の給与を上げられるわけで、利益が出てなかったらその個人がどんなに頑張ったところで給与は上がりません。何故なら給与を上げるための原資が無いからです。 だから、利益が無い会社に所属しているのであれば、給与交渉はそもそも無駄です。だって交渉しても上がるわけないし。その場合は、給与アップが必須なのであれば転職を検討するしかないし、給与アップしなくてもメリットがあるのであればその会社に在籍し続ける、という選択が必要になります。 目標と現状のギャップを把握する 具体的な希望も無く「給与上げてください」と言うのは給与交渉ではありません。これだと会社もどのくらい上げてほ

40代の減量戦略 〜体重-14kg、体脂肪率-12%を実現した具体的な方法〜

コロナ禍はもちろん辛い時期ではあったけど、生活習慣が良い方へ大きく変わた時期でもあった。具体的には食生活がほぼ自炊になり、酒量が減り、ジム通いを再開し、マラソン大会にも定期的に参加した。そんな中で一念発起し、きちんと減量に取り組んで、体重75kg→61kg(-14kg)、体脂肪率25%→13%(-12%)を実現した。 具体的な体重遷移は以下。2020年12月がMAXの75kg、その後減量とリバウンドを繰り返しつつ70kg前後を推移、2022年後半で一気に落とし、2023年1月30日時点で61kgとなった。 そこで、その具体的な方法をお伝えしたい。減量とは3つの要素の組み合わせだ。 食事 運動 休養 この順番はそのまま優先順位でもある。それぞれについて以下に説明する。 0.プロにアドバイスをもらう 3つの要素と言ったがあれは嘘だ。すまない。もっと重要なことがある。それはプロにアドバイスをもらうことだ。 WHO NOT HOWという本がある。 WHO NOT HOW 「どうやるか」ではなく「誰とやるか」  posted with AmaQuick at 2023.01.21 ディスカヴァー・トゥエンティワン (2022-05-27T00:00:01Z) ダン・サリヴァン(著), ベンジャミン・ハーディ(著), 森由 美子(翻訳) Amazon.co.jpで詳細を見る 要約すると、起業家や経営者がやるべきことはビジネスを成功させることだけれど、人は皆スーパーマンではなく、得意なことと不得意なことがあるんだから、得意なことは得意な人に一任することが大事なんだよ、という内容の本。 これは減量についても同じ。本を読んだりYoutubeで動画を見て、実際に減量出来たのであればそれはそれで構わないし、そういう人はこのブログ投稿を読まないだろう。 自分で学んで、自分でチャレンジして、それでも減量出来ないのであれば、素直に投資してプロのアドバイスをもらったほうが効率が良い。具体的にはパーソナルトレーナーだ。パーソナルトレーナーは運動生理学やスポーツ栄養学などについて学び実践してきた人

45歳になりました

この1年は激動の年でした。 振り返りと抱負です。 個人 相変わらず筋トレを続けています。 バルクアップと減量を繰り返すことで体型がだいぶ変わってきました。 一度絞り切る経験をしてみたいので、夏に向けて減量頑張ってます。 マラソンについては去年よりペースダウンしようと思っています。 今年は1月勝田全国マラソン、2月の北九州マラソンと走って、次は8月の北海道マラソンまでは軽いものにしか出ない予定。 今年もスキーには行けませんでした。 来年は復活したい。 家族 結婚して家を出た長女と長女の夫とは仲良くしています。 月1回くらいは一緒にご飯食べたり飲みに行ったりしています。 RSR23は僕の弟も入れて4人で参戦。とても楽しかったので今年も4人で参戦予定。 一人暮らししていた長男がまた実家住まいに。 相変わらずチャラチャラしてるけどとりあえず自分の食い扶持くらいは稼いでるのでまぁ良いとしよう。 次男は今年高校3年生に。 このまま卒業まで頑張ってほしい。 犬と猫3匹とウサギ1匹は今日も元気です。 飼育放棄されていた犬を一時的に預かり中。 短期的な預かりで、次の飼い主が1−2ヶ月後には迎えに来る予定。 犬が2匹いる生活はなかなか大変でバタバタしています。 妻とは今まで通り仲良しです。 長女が結婚したことで「子どもたちが全員自立した後の夫婦」が目前に近づいてきたせいか、なんなら過去イチで仲良しです。 いつもありがとう妻様。愛してるよ。 仕事 コロナ禍が収束モードとなるのと同時に出張が激増しました。 毎週東京に出張することになって、コロナ以前と同じように東京に拠点となる部屋を作り、年間2/3は自宅を不在にする状況に。 家庭も大事なので、週半分くらいは自宅にいられるようにしたいところ。 仕事人生のゴールを見据え始めました。 45歳なので、60歳が定年だと残り15年。定年後再雇用があっても20年。残りの仕事人生をどう過ごし、どう終わらせるべきなのか。人生の転機に差し掛かってるのかなと感じています。 子育ての終わりが見え始めたこともあり、自分自身の人生を改めて考える必要が出てきたのだと思います。 諸先輩方の考えや経験をたくさん聞いて悩んでいこうと思っていますので、皆さん、ぜひ僕とお話させてください。 誕生日プレゼント こちらで絶賛受付中 です。 過去のお誕生日 2008年: smokeym