スキップしてメイン コンテンツに移動

Twitter廃人をRedshift + Tableau Desktopで丸裸にする

やってはみたけど会社のブログに書くには微妙だったシリーズ。

皆さんご存知かも知れませんが、当方Tweet数20万オーバーのTwitter廃人です。


さて、Twitterには自アカウントの過去の全ツイートを取得できる機能があります。取得は[Settings]-[Account]-[Your Twitter Archive]から[Request Your Archive]ボタンを押すことで、登録してあるメールアドレスに対しダウンロードリンクが通知される仕組み。で、このアーカイブには全ツイートがCSVとして格納されています。

このCSVをAmazon Redshiftに突っ込んでTableau Desktopで分析してやるぜ、というのが今日の主旨です。

前提条件

この辺は特に説明しません。

  1. Redshiftを普通に構築しておきます。Database名は"Twitter"で。
  2. Redshiftにpsqlコマンドで接続可能なようにしておきます。ローカル環境でもEC2でも構いません。
  3. Redshiftに接続可能なIAMアカウントを用意しておきます。
  4. S3のバケットにダウンロードしたCSV(tweets.csv)を配置しておきます。

Redshiftにデータを突っ込む

Redshiftにpsqlコマンドで接続します。
$ psql -h myredshift.xxxxx.ap-northeast-1.redshift.amazonaws.com -U admin -d twitter -p 5439
ユーザ admin のパスワード:
psql (9.2.9, サーバー 8.0.2)
注意: psql バージョン 9.2, サーバーバージョン 8.0.
         psql の機能の中で、動作しないものがあるかもしれません。
SSL 接続 (暗号化方式: ECDHE-RSA-AES256-SHA, ビット長: 256)
"help" でヘルプを表示します. 
とりあえずcreate tableします。Twitterのtimestampは[2014-07-09 02:59:12 +0000]みたいな感じになっているので、RedshiftのDate型にはそのまま入りません。面倒臭いのでとりあえずvarcharで突っ込んでおきます。
twitter=# create table tweet (
twitter(# tweet_id bigint,
twitter(# in_reply_to_status_id bigint,
twitter(# in_reply_to_user_id bigint,
twitter(# timestamp varchar,
twitter(# source varchar,
twitter(# text varchar,
twitter(# retweeted_status_id bigint,
twitter(# retweeted_status_user_id bigint,
twitter(# retweeted_status_timestamp varchar  ,
twitter(# expanded_urls varchar);
CREATE TABLE
作ったtableにcsvをcopyコマンドでぶっ込みます。IGNOREHEADERで1行目のヘッダ行は読み込まない、空のカラムはNULLとして入れておく、ってことをしてます。
twitter=# COPY tweet FROM 's3://mybucket/tweets.csv'
twitter-# CREDENTIALS 'aws_access_key_id=%ACCESSKEY%;aws_secret_access_key=%SECRETKEY%'
twitter-# CSV
twitter-# TRUNCATECOLUMNS
twitter-# IGNOREHEADER AS 1
twitter-# EMPTYASNULL;
INFO:  Load into table 'tweet' completed, 202324 record(s) loaded successfully.
COPY
そんでcommit。
twitter=# commit;
COMMIT

Tableau DesktopからRedshiftに接続する

さて、Tableau Desktopを立ち上げてみます。なおTableau Desktopは全機能利用可能な無償トライアル版があります。Redshift接続用のドライバをインストールする必要があるのでこちらからダウンロードしてインストールしましょう。

Tableau Desktopを立ち上げて、[データに接続]をクリック。


接続先サーバから[Amazon Redshift]をクリック。


Amazon Redshiftへの接続情報を入力して[接続]ボタンをクリック。


[スキーマ]から"Public"を選択、[表]の"tweet"を右上にドラッグします。

 すると下欄にデータが表示されます。前述の通り、timestampが文字列として格納されているので、Tableau Desktopの力で変換してしまいます。


該当行で[日付と時刻]を選択。


するとtimestampがちゃんと日付と時刻として表示されます。


分析してみる

例えば月ごとのtweet数を集計してみる。2010年4月の5192tweetが最大。1日100以上tweetしてることになります。バカじゃないか俺


さらにユーザ毎のリプライ数を集計してみます。2位3位に圧倒的な差をつけていたのが@koiwa仲良過ぎじゃないのか


まとめ

20万レコードくらいなら一瞬でグラフ表示してくれます。よく「Redshift + Tableauの組み合せ最強」と言われるけど、こりゃ確かに簡単ですね。今回は簡単な集計しかしていないけれど、Tableauの計算フィールドを使うことでより高度な分析が可能だし、データインポートのバッチの中で付加レコードを作ってもいいでしょう。例えばtext項目を形態素解析して別テーブルに突っ込むことで、どの時期にどんな単語をtweetしているのかを分析すれば、僕の趣味嗜好の傾向が分かって面白そうだなぁ。

ってことで、面白いですよ、Tableau。

このブログの人気の投稿

初めての給与交渉で意識するべき6つのポイント

本記事は、社会人となって1〜3年目くらいの方が、給与アップのためにどのように考え、どのようにアクションするべきなのかを、僕の経験を踏まえてまとめたものです。 背景として、僕が初めて働いたIT企業は、年棒制で給与交渉は各自が行うものであり、年次で成果レポートと希望する年収額を会社に提示し、それが査定されて翌年の年俸が確定する、という制度でした。なので僕自身は若い頃からずっと給与交渉をし続けています。 大前提:給与とは与えられるものではなく勝ち取るものである 給与は勝手に上がるものではありません。自分の努力や成果を誰か(=会社や上長)が適切に判断し公平に給与を払ってくれる、なんてことはありません。何故なら多くの仕事は定量的なだけでは評価できず、そこに定性的な判断を必要とするからです。そして人間に公平で完璧な意思決定を求めるのはそもそも無理です。人間は感情的で、多くのバイアスを持ち、その時々のコンディションで常に意思決定が歪みます。だからこそ、定性的な評価に関する成果は、被評価者自身が自らアピールしないと評価者に正しく伝わりません(ただしアピールしたところで正しく伝わらないこともあります) もちろん定量的なだけで評価できる仕事は世の中にはあるし、その場合は給与はその成果に比例して決まり、人間の判断は必要としません。でもそうではない、定性的な評価が含まれる仕事をしているのであれば、自ら自分が何をし、どのような成果を出したのかを、きちんと会社に伝え、その分の給与を要求する、というアクションが必要になります。 大前提:給与は会社が儲かっていないと上がらない これもまぁ当たり前ですよね。会社は利益が出てるから社員に投資できる=社員の給与を上げられるわけで、利益が出てなかったらその個人がどんなに頑張ったところで給与は上がりません。何故なら給与を上げるための原資が無いからです。 だから、利益が無い会社に所属しているのであれば、給与交渉はそもそも無駄です。だって交渉しても上がるわけないし。その場合は、給与アップが必須なのであれば転職を検討するしかないし、給与アップしなくてもメリットがあるのであればその会社に在籍し続ける、という選択が必要になります。 目標と現状のギャップを把握する 具体的な希望も無く「給与上げてください」と言うのは給与交渉ではありません。これだと会社もどのくらい上げてほ

40代の減量戦略 〜体重-14kg、体脂肪率-12%を実現した具体的な方法〜

コロナ禍はもちろん辛い時期ではあったけど、生活習慣が良い方へ大きく変わた時期でもあった。具体的には食生活がほぼ自炊になり、酒量が減り、ジム通いを再開し、マラソン大会にも定期的に参加した。そんな中で一念発起し、きちんと減量に取り組んで、体重75kg→61kg(-14kg)、体脂肪率25%→13%(-12%)を実現した。 具体的な体重遷移は以下。2020年12月がMAXの75kg、その後減量とリバウンドを繰り返しつつ70kg前後を推移、2022年後半で一気に落とし、2023年1月30日時点で61kgとなった。 そこで、その具体的な方法をお伝えしたい。減量とは3つの要素の組み合わせだ。 食事 運動 休養 この順番はそのまま優先順位でもある。それぞれについて以下に説明する。 0.プロにアドバイスをもらう 3つの要素と言ったがあれは嘘だ。すまない。もっと重要なことがある。それはプロにアドバイスをもらうことだ。 WHO NOT HOWという本がある。 WHO NOT HOW 「どうやるか」ではなく「誰とやるか」  posted with AmaQuick at 2023.01.21 ディスカヴァー・トゥエンティワン (2022-05-27T00:00:01Z) ダン・サリヴァン(著), ベンジャミン・ハーディ(著), 森由 美子(翻訳) Amazon.co.jpで詳細を見る 要約すると、起業家や経営者がやるべきことはビジネスを成功させることだけれど、人は皆スーパーマンではなく、得意なことと不得意なことがあるんだから、得意なことは得意な人に一任することが大事なんだよ、という内容の本。 これは減量についても同じ。本を読んだりYoutubeで動画を見て、実際に減量出来たのであればそれはそれで構わないし、そういう人はこのブログ投稿を読まないだろう。 自分で学んで、自分でチャレンジして、それでも減量出来ないのであれば、素直に投資してプロのアドバイスをもらったほうが効率が良い。具体的にはパーソナルトレーナーだ。パーソナルトレーナーは運動生理学やスポーツ栄養学などについて学び実践してきた人

45歳になりました

この1年は激動の年でした。 振り返りと抱負です。 個人 相変わらず筋トレを続けています。 バルクアップと減量を繰り返すことで体型がだいぶ変わってきました。 一度絞り切る経験をしてみたいので、夏に向けて減量頑張ってます。 マラソンについては去年よりペースダウンしようと思っています。 今年は1月勝田全国マラソン、2月の北九州マラソンと走って、次は8月の北海道マラソンまでは軽いものにしか出ない予定。 今年もスキーには行けませんでした。 来年は復活したい。 家族 結婚して家を出た長女と長女の夫とは仲良くしています。 月1回くらいは一緒にご飯食べたり飲みに行ったりしています。 RSR23は僕の弟も入れて4人で参戦。とても楽しかったので今年も4人で参戦予定。 一人暮らししていた長男がまた実家住まいに。 相変わらずチャラチャラしてるけどとりあえず自分の食い扶持くらいは稼いでるのでまぁ良いとしよう。 次男は今年高校3年生に。 このまま卒業まで頑張ってほしい。 犬と猫3匹とウサギ1匹は今日も元気です。 飼育放棄されていた犬を一時的に預かり中。 短期的な預かりで、次の飼い主が1−2ヶ月後には迎えに来る予定。 犬が2匹いる生活はなかなか大変でバタバタしています。 妻とは今まで通り仲良しです。 長女が結婚したことで「子どもたちが全員自立した後の夫婦」が目前に近づいてきたせいか、なんなら過去イチで仲良しです。 いつもありがとう妻様。愛してるよ。 仕事 コロナ禍が収束モードとなるのと同時に出張が激増しました。 毎週東京に出張することになって、コロナ以前と同じように東京に拠点となる部屋を作り、年間2/3は自宅を不在にする状況に。 家庭も大事なので、週半分くらいは自宅にいられるようにしたいところ。 仕事人生のゴールを見据え始めました。 45歳なので、60歳が定年だと残り15年。定年後再雇用があっても20年。残りの仕事人生をどう過ごし、どう終わらせるべきなのか。人生の転機に差し掛かってるのかなと感じています。 子育ての終わりが見え始めたこともあり、自分自身の人生を改めて考える必要が出てきたのだと思います。 諸先輩方の考えや経験をたくさん聞いて悩んでいこうと思っていますので、皆さん、ぜひ僕とお話させてください。 誕生日プレゼント こちらで絶賛受付中 です。 過去のお誕生日 2008年: smokeym