2009-01-01から1ヶ月間の記事一覧

改行文字

Web 文書を取得して,その中身を形態素解析する前処理として改行文字をスキップするようにしているが,そこにバグが潜んでいた.C言語で改行文字と言えば '\n' であり,これで CR, LF, CR と LF の組のすべてを処理できると信じていたが,\r でなければ捉え…

Ubuntu のインストール

仕事用マシンに Ubuntu 8.10 をインストールした。評判によると「安定している」らしい。ポリシーとしては最もベタなイメージを入れるのだが,面倒になって Ubuntu Desktop 日本語 Remix CD を利用。評価については,しばらく使ってみてから。