日経の社説を一気に取得する。自分で読むのはバカバカしいからRubyに日経を読ませる。 http://bit.ly/wmiE2U (via redtower)
新聞比べ読みをしたらいいとトラックバックがあったんだけど*1。
僕も日経の何がいいかよくわからん。エライ人が日経嫁とかウルサイんですね。僕も言われたことあります。
あんなもの自分で読むとストレスたまるので、とりあえずプログラムに読ませてみた。
日経の社説を取得するプログラム
#!/usr/bin/env ruby #日経新聞の社説。 require 'rubygems' require 'mechanize' m = Mechanize.new m.get "http://s.nikkei.com/yuWJm2" #m.page.search('/html/body//h2[contains(., "社説")]').first.parent list = m.page.search('//h4/a').map{|e| [e.text,"http://s.nikkei.com/nKGjqr"+e["href"]] } list.each{|e| m.get e[1] title = m.page.search('h4.cmn-article_title.cmn-clearfix').text.strip date = m.page.search('h4.cmn-article_title.cmn-clearfix').text.strip body = m.page.search('div.cmn-article_text.JSID_key_fonttxt').text.gsub(/\t/, "") open("#{title}-#{date}.txt","w"){|f| f.write body} }
Rubyに読ませてみた。
(スクリーンショット 2012-02-21 3.18.12)
Rubyに代わりに読んでもらおう。
$KCODE ='u' system("cat *.txt > all.nikkei") text = open("all.nikkei").read regex = /[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/ words = text.scan regex counts = Hash.new(0) words.each{|e| counts[e] = counts[e] + 1 } sorted = counts.to_a.sort{|a,b| b[1] <=> a[1]} sorted.each{|e| puts "#{e[0]}=>#{e[1]}"} puts "-"*10 puts words.size
結果
「てにをは」などがこれだけ
の=>426 を=>305 が=>187 に=>180 は=>158 で=>86 と=>57 も=>56 や=>53 な=>51 だ=>39 い=>37 し=>35 する=>33 した=>31 り=>26 る=>25
キーワードはこんな感じ。
ガス=>25 年=>23 政府=>22 日本=>22 天然=>16 高=>15 人=>15 東電=>15 強=>13 考=>12 続=>12 得=>11 問題=>11 受=>11 中国=>11 対応=>10 研究=>10 エネルギー=>10 合=>10 必要=>10 上=>9 課題=>9 企業=>9 日銀=>9 電力=>8 送電網=>8 テロ=>8 温度計=>7
結果
今週の日経さんは「電力と日本と、政府と、中国」にご執心で、「高い〜」や「強い〜」が好きなようですね。そしてやたら天然ガスにご執心です。
これだけでもう何書いてあるか想像が付くわ。。。
tf/idf的には逆も見たいところ。
一回だけ出てくる、特徴語を見たらなんと「国会」が一回だけ。まぁ◯◯党や◯◯大臣というもっと具体例で言及してるんかねぇ。でもそれ政府なんだよねぇ。やっぱ国会は国会の機能は果たしてないってことか。
TPP、FRBやメルコジへの言及は少ないなぁ。
Notes
-
kkuray3knがusaginobikeからリブログしました
-
kayatokasasuscrapbookがusaginobikeからリブログしました
-
ynakajimaがtezcatlipoca453からリブログしました
-
ryuuyaがこの投稿を「スキ!」と言っています
-
dragogazerがfirebumからリブログしました
-
prantaso-ginzaがこの投稿を「スキ!」と言っています
-
yoruyoruがusaginobikeからリブログしました
-
tezcatlipoca453がこの投稿を「スキ!」と言っています
-
tezcatlipoca453がusaginobikeからリブログしました
-
long-tweetがusaginobikeからリブログして、コメントを追加しました:
何か既製の、単に情報収集目的で読んだり聴いたり観たりしているメディアに関しては、もうこれで充分なんじゃないか?と思った。 特に、恣意的な情報操作については(アルゴリズムがバレる迄は)上手くフィルタリングできそうだし、むしろベターかも。
-
usaginobikeがgtokioからリブログしました
-
yomeiriがこの投稿を「スキ!」と言っています
-
mocrlbmutがこの投稿を「スキ!」と言っています
-
bigfacesがoharicoからリブログしました
-
firebumがoharicoからリブログしました
-
dante35がこの投稿を「スキ!」と言っています
-
oharicoがshinodddddからリブログしました
-
tanakak06がhoronigaからリブログしました
-
dog-masterがこの投稿を「スキ!」と言っています
-
kabibouzuがtoyolinaからリブログしました
-
shibuheiがhepton-rkからリブログしました
-
7tsukixがhepton-rkからリブログしました
-
furafuniがこの投稿を「スキ!」と言っています
-
tamootがhepton-rkからリブログしました
-
hepton-rkがsaikiyoshiyukiからリブログしました
-
saikiyoshiyukiがgakkieからリブログしました
-
enjoylivingordieがtoyolinaからリブログしました
-
ktsukagoがgakkieからリブログしました
-
gakkieがglasslipidsからリブログしました
-
dranktoomuchがこの投稿を「スキ!」と言っています
-
precallがtoyolinaからリブログしました
-
glasslipidsがtoyolinaからリブログしました
-
eurekaaaaaaaaがtoyolinaからリブログしました
-
toyolinaがmmtkiからリブログしました
-
gmdraytがmmtkiからリブログしました
-
mmtkiがotemoto-otumamiからリブログしました
-
shin1-pがoharicoからリブログして、コメントを追加しました:
こういうのでシステム的に各紙読んでいけば、どういう世論にしていきたいのかとか色々捗るのかも。
-
henachokoがreservoirからリブログしました
-
shis0k0nがこの投稿を「スキ!」と言っています
-
tosh728がこの投稿を「スキ!」と言っています
-
tosh728がchiisanaehonからリブログしました
-
chiisanaehonがreservoirからリブログしました
-
reservoirがこの投稿を「スキ!」と言っています
-
reservoirがyunhからリブログしました
-
yunhがgearmannからリブログしました
-
c610がhiro-saku-goからリブログしました
-
mujakoがnissingeppoからリブログしました
-
nissingeppoがhimatbshizからリブログしました
-
human-from-hellがこの投稿を「スキ!」と言っています
-
trash-caseがhimatbshizからリブログしました
- もっと見る