スキップしてメイン コンテンツに移動

Twitter廃人をRedshift + Tableau Desktopで丸裸にする

やってはみたけど会社のブログに書くには微妙だったシリーズ。

皆さんご存知かも知れませんが、当方Tweet数20万オーバーのTwitter廃人です。


さて、Twitterには自アカウントの過去の全ツイートを取得できる機能があります。取得は[Settings]-[Account]-[Your Twitter Archive]から[Request Your Archive]ボタンを押すことで、登録してあるメールアドレスに対しダウンロードリンクが通知される仕組み。で、このアーカイブには全ツイートがCSVとして格納されています。

このCSVをAmazon Redshiftに突っ込んでTableau Desktopで分析してやるぜ、というのが今日の主旨です。

前提条件

この辺は特に説明しません。

  1. Redshiftを普通に構築しておきます。Database名は"Twitter"で。
  2. Redshiftにpsqlコマンドで接続可能なようにしておきます。ローカル環境でもEC2でも構いません。
  3. Redshiftに接続可能なIAMアカウントを用意しておきます。
  4. S3のバケットにダウンロードしたCSV(tweets.csv)を配置しておきます。

Redshiftにデータを突っ込む

Redshiftにpsqlコマンドで接続します。
$ psql -h myredshift.xxxxx.ap-northeast-1.redshift.amazonaws.com -U admin -d twitter -p 5439
ユーザ admin のパスワード:
psql (9.2.9, サーバー 8.0.2)
注意: psql バージョン 9.2, サーバーバージョン 8.0.
         psql の機能の中で、動作しないものがあるかもしれません。
SSL 接続 (暗号化方式: ECDHE-RSA-AES256-SHA, ビット長: 256)
"help" でヘルプを表示します. 
とりあえずcreate tableします。Twitterのtimestampは[2014-07-09 02:59:12 +0000]みたいな感じになっているので、RedshiftのDate型にはそのまま入りません。面倒臭いのでとりあえずvarcharで突っ込んでおきます。
twitter=# create table tweet (
twitter(# tweet_id bigint,
twitter(# in_reply_to_status_id bigint,
twitter(# in_reply_to_user_id bigint,
twitter(# timestamp varchar,
twitter(# source varchar,
twitter(# text varchar,
twitter(# retweeted_status_id bigint,
twitter(# retweeted_status_user_id bigint,
twitter(# retweeted_status_timestamp varchar  ,
twitter(# expanded_urls varchar);
CREATE TABLE
作ったtableにcsvをcopyコマンドでぶっ込みます。IGNOREHEADERで1行目のヘッダ行は読み込まない、空のカラムはNULLとして入れておく、ってことをしてます。
twitter=# COPY tweet FROM 's3://mybucket/tweets.csv'
twitter-# CREDENTIALS 'aws_access_key_id=%ACCESSKEY%;aws_secret_access_key=%SECRETKEY%'
twitter-# CSV
twitter-# TRUNCATECOLUMNS
twitter-# IGNOREHEADER AS 1
twitter-# EMPTYASNULL;
INFO:  Load into table 'tweet' completed, 202324 record(s) loaded successfully.
COPY
そんでcommit。
twitter=# commit;
COMMIT

Tableau DesktopからRedshiftに接続する

さて、Tableau Desktopを立ち上げてみます。なおTableau Desktopは全機能利用可能な無償トライアル版があります。Redshift接続用のドライバをインストールする必要があるのでこちらからダウンロードしてインストールしましょう。

Tableau Desktopを立ち上げて、[データに接続]をクリック。


接続先サーバから[Amazon Redshift]をクリック。


Amazon Redshiftへの接続情報を入力して[接続]ボタンをクリック。


[スキーマ]から"Public"を選択、[表]の"tweet"を右上にドラッグします。

 すると下欄にデータが表示されます。前述の通り、timestampが文字列として格納されているので、Tableau Desktopの力で変換してしまいます。


該当行で[日付と時刻]を選択。


するとtimestampがちゃんと日付と時刻として表示されます。


分析してみる

例えば月ごとのtweet数を集計してみる。2010年4月の5192tweetが最大。1日100以上tweetしてることになります。バカじゃないか俺


さらにユーザ毎のリプライ数を集計してみます。2位3位に圧倒的な差をつけていたのが@koiwa仲良過ぎじゃないのか


まとめ

20万レコードくらいなら一瞬でグラフ表示してくれます。よく「Redshift + Tableauの組み合せ最強」と言われるけど、こりゃ確かに簡単ですね。今回は簡単な集計しかしていないけれど、Tableauの計算フィールドを使うことでより高度な分析が可能だし、データインポートのバッチの中で付加レコードを作ってもいいでしょう。例えばtext項目を形態素解析して別テーブルに突っ込むことで、どの時期にどんな単語をtweetしているのかを分析すれば、僕の趣味嗜好の傾向が分かって面白そうだなぁ。

ってことで、面白いですよ、Tableau。

このブログの人気の投稿

努力できること自体が才能なので、努力しただけで褒められるべき

発明王トーマス・エジソンの名言としてよく知られる「天才とは1%のひらめきと99%の努力である」という言葉があります。実際の意図は「1%のひらめきがなければ、99%の努力は無駄になる」であったとも 言われています が、まぁどちらにせよ、ひらめきだけでは成功することはできず、そこには必ず努力も必要となります。 漫画「はじめの一歩」において主人公の師匠である鴨川会長は「努力した者が全て報われるとは限らん。しかし、成功した者は皆すべからく努力しておる」と言っていました。ここにも、成功において努力は必要不可欠であるとの強いメッセージがあります。 しかし、実際には誰もが努力できるわけではありません。 努力できること自体が才能 なのだと思います。 努力をしないことが問題だと言うつもりはありませんし、努力をしないという選択肢を選ぶことは個人の自由だと思います。必ずしも成功が万人の幸せなわけではないし、成功しなくても得られる生活によって満足する人だっています。 僕が言いたいのは「そもそも努力できない人がいる」という事実です。こういう方は選択の余地が無く、何かにおいて1位になったり、一流になったり、勝利したり、成功したりすることは難しくなります。それらには必ず努力が必要になるからであり、そして努力ができない、努力をする才能が無いからです。 これには実験の裏付けがあります。詳しくは10年前の WIREDの記事 に書かれていますが、ざっくり言うと、脳内の一部(左線条体と前頭前皮質腹内側部)におけるドーパミン作動性活性が高いと努力ができる、違う一部( 島皮質)の ドーパミン作動性活性が高いと努力できない、という実験結果があります。そもそも脳の作りや働きによって努力ができる人とできない人がいる、ということです。 繰り返しになりますが、僕は努力しない人が悪いとも思っていないし、責めるつもりもありません。僕が言いたいのは以下の2点です。 (1)努力できること自体が才能であり、その才能が無い人はそもそも努力ができないので 、努力できないことを責めてはいけない。 それは本人の特性であり個性だから。 (2)努力できること自体がすごいことなので、努力した結果が成功に結びつかなかったとしても、責めてはいけない。 努力しただけで褒められてよい。 人にはそれぞれ適材適所があるので、めちゃくちゃ努力する人は努力が

自走する組織に必要なのはルールではなくガイドライン

ということをいつも心がけている、という話です。 僕が組織のマネジメント職を20年ほどやらせてもらっている上で、いつも意識しているのは権限移譲とセルフマネジメントです。この辺の話は過去のブログにも書きました。 管理職のためのエンジニア組織構築マニュアル 管理職のための役職引退マニュアル 現場に口を出さないマネージャーの作り方 つまり「権限と裁量を同時に移譲し、責任感を持ってプロアクティブに仕事をしてもらいながらも、メンバーの良いところを更に引き出して高いパフォーマンスを出してもらう」ことこそが、マネジメント職のやるべきことだと思っています。 そのために僕がいつも権限移譲の際に伝えるのは、ルールではなくガイドラインです。ルールは規則や規定といった決まりごとなので「やること」「やってはいけないこと」が書かれたものです。ガイドラインは大まかな指針なので「方向性」「やったほうがいいこと」「やらないほうがいいこと」が書かれたものです。 ルールを提示した場合、そのとおりにすれば過去の実績からある程度の成功は見込めるものの、状況に応じた柔軟な判断が出来ませんし、メンバーの考えや意見が行動に反映されません。メンバーはルール通りの行動しか出来ず、結果としてルールを作成した人以上の成果は出せなくなってしまいます。 ガイドラインの場合、会社として望ましいと考える方向性だけが書かれているので、状況に応じた柔軟な判断も出来ますし、メンバーが考えるより良いやり方や行動を取り入れることが出来ます。ガイドラインを作成した人以上の良いアイデアがあればガイドラインをアップデートすることも出来ます。 これは権限移譲だけでなく、育成においても同様だと僕は考えます。1から10まで決まりきったカリキュラムをやらせることも時には(あるいは人によっては)必要だけれど、本当に価値のある育成は、メンバーに目指してほしい姿を伝え、現在とのギャップを一緒に認識し、そのギャップを埋めるための多種多様な方法を伝えて、その上で本人が取捨選択して自分自身で学習していく。企業や上長はそのサポートを行う。というのが、最も成長出来る育成方法だと思います。 学習する組織 ― システム思考で未来を創造する posted with AmaQuick at 2

「許可を得るな、謝罪せよ」が意図していること

 弊社ではセルフマネジメントとアウトプットファーストを行動指針として掲げていますが、セルフマネジメントを象徴する言葉としてよく使われるのが 「許可を得るな、謝罪せよ」 です。 細かい話は 以前ブログにした のでそちらを読んで頂くとして、この言葉が意味するのは「アクションするのにいちいち許可を得る必要はない。許可を取る時間が無駄。やっていいですかじゃなくてやりましたと言えばいい。その結果間違っていれば謝れば良いだけ」です。 何故この方針を取るのか、この方針によってどのような結果を期待しているのか、を改めて整理したいと思います。 アクションのスピードを上げたい これは上述した意味の通りで、何らかの施策や企画があるときに、上長の許可を取るために資料を作ったり、打ち合わせしたり、下調べをしたり、という時間が無駄だからです。 この考え方の前提として「小さな失敗を早くたくさんする」というのがあります。どんな施策も企画も、正解なんて誰にもわからないし、やり方次第で変わるものです。アイデアの時点であーだこーだ言うより、実際に手を動かしてやってみて、その結果から継続の判断を行うことで、リスクを小さく、コストも小さく、たくさんアクションすることが出来ます。 モチベーションを持って取り組んでもらいたい 何でもそうですけど、人に言われたことをそのままやるより、自分で考えたことを自分のやり方でやるほうが、面白いです。僕が仕事をする上で、または僕がピープルマネジメントする上で、一番重要視しているのは、面白いかどうか、です。 担当者がモチベーションのないままやって成功することなんて(ほとんど)ありません。その施策や企画の実施に一番モチベーションがあるのはそれを考えた人なので、その人に主導してもらうのが一番成功率が高いです。 主体性を持って取り組んでもらいたい モチベーションと同様に、担当者が主体性のないままやって成功することなんて(ほとんど)ありません。その施策/企画を自分ごととして捉え、だからこそ知恵を絞って、全力を発揮する、つまり主体性を持って取り組むことが、一番成功率が高いです。そしてもちろん、一番主体性を持てるのはそれを考えた人です。 なお、主体性と責任は違います。前述の通り「小さな失敗を早くたくさんする」ためには、失敗に対して責任を追求するのではなく、結果と知見を追求する、という文化が