(メモ) 大規模過ぎるデータと LSA

上記は Yamamoto さんの実験に用いるデータについて述べている.
このデータを R にてロジスティック回帰を試みたが,「エラー: サイズ 1.4 Gb のベクトルを割り当てることができません」と言われて頓挫した.S-PLUS on Windows でも同様の結果である.
以前に C で書いた LSA のプログラムがあるから,そこで 47,000×30 のランダムかつスパース(値の 90%がゼロである)データを食わせたところ,かなり小さいサイズまで次元削減に成功した.ただし,結果の精度は不明.ちなみに 470,000×30 でもプログラムは動く.
というわけで,LSA で次元圧縮し,その後にロジスティック回帰に食わせることにする.
やるべきことは,データをファイルから読み込む機構を付加する作業のみ.