Wikipedia のデータをテキストファイルにするメモ(1)

水曜日, 4月 23rd, 2008 | Author: いなば

研究用のサンプルデータとして、とりあえず Wikipedia 日本語版を考えています。
現状、Wikipedia のデータは Wikipedia:データベースダウンロードにあるように、http://download.wikimedia.org/jawiki/ から入手できます。

このデータは、圧縮された巨大な XML データなんですが、全文検索のサンプルにすることを考えると、プレーンテキストになっている方が扱いやすい。てことで、同志社大学言語文化教育研究センターの長谷部 陽一郎先生が書かれた WP2TXTを使う予定です。

ちょっと今日時間が取れるか微妙なので、場合によっては明日に続く、かも。

Category: 研究
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.
Leave a Reply

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>