wikipedia を、テストデータにする
Hadoopとかのテストデータが欲しかったので。
Wikipediaからデータを落とす
英語版を落とします。
Wikimedia Downloads
http://download.wikimedia.org/backup-index.html/
enwikiを探して
http://download.wikimedia.org/enwiki/20100904/enwiki-20100904-pages-articles.xml.bz2
これが、欲しいのだが、でかすぎる。
http://download.wikimedia.org/enwiki/20100904/enwiki-20100904-pages-articles2.xml.bz2
こっちにしました。
Textにする
wp2txtというソフトがあるので、それを使います。
WP2TXT: Wikipedia to Text Converter
http://rubyforge.org/projects/wp2txt/
dmgを落としてきて、使用しました。
終了すると、ディレクトリに、指定したサイズのtxtが、沢山出来ます。