改行文字

Web 文書を取得して,その中身を形態素解析する前処理として改行文字をスキップするようにしているが,そこにバグが潜んでいた.C言語で改行文字と言えば '\n' であり,これで CR, LF, CR と LF の組のすべてを処理できると信じていたが,\r でなければ捉えられない改行文字があるようだ.