よくある地名をリストする

よくある地名をリストする

EpisoPassの問題プールの地名リストを作るために、よくある住所/地名を取得する方法を考えてみた

それっぽい住所をランダム(?)に1万件生成させることができる
こういうデータが得られる
conv.rb
Copied!
ARGF.each { |line|
line.chomp!
line.sub!(/^...?(県|道|都|府)/,'')
line.sub!(/^..?.?.?(市|区|郡)/,'')
line.sub!(/^..?.?(市|区|郡)/,'')
line.sub!(/[1-9].*$/,'')
puts line
}
% ruby conv.rb juusho.csv| sort | uniq -c | sort -r -n | ruby -n -e 'puts $_.split1'

方法2: 住所.jpのデータを使う
% nkf -w zenkoku.csv | ruby -n -e 'puts $_.split(",")11' | sort | uniq -c | sort -r -n | ruby -n -e 'puts $_.split1' | ruby -n -e 'puts $_.gsub("\"","")'

どちらでもそれなりに住所リストは取得できる模様

Powered by Helpfeel