2008-01-01から1年間の記事一覧

岩本さん

WAVEデータをフレーム単位(16msの長さ)へ分割すること,フレーム列から音符を抽出する C プログラムの解読および VB への移植を試みた.

waveIn系関数を用いた録音機能の実装

waveInReset から制御が戻らず,アプリケーションがフリーズ.原因は deadlock のようだ.具体的には,waveInReset を呼んだ時点でバッファ内にはデータが残っているため MM_WIM_DATA イベントと共に callback 関数へと処理が移されて,waveInAddBuffer でデ…

谷村さん

chasen の出力結果(形態素の集合)を出現頻度に従ってソートするプログラムが完成。メモリ解放処理がなされているか不安だが・・・。次の課題は,出力結果のうち,上位の何パーセントを用いて特徴ベクトルとするかの検討。

岩本さん

クライアント側で行う,有声音フレームの検出および音符への分割部分の C プログラムの解釈。プログラムを読む前に理屈を詰めないとならんなぁ。

なんだそりゃ!

上記に「WAV の再生ができない」と書いたが,実は完成していた。変数名を書き換えたとき,1箇所だけ換えるのを忘れて,それがバッファ・サイズを制御するものだった。サイズがゼロとしてバッファが allocation されているという間抜けな理由。そのために2…

WaveIF

どうにもこうにも WAV の再生ができない。ファイルを読み込んで再生するのならば mcistring でよいのだが,データを保持した状態ではうまく動かない。原理は理解できるのだが,インプリメントがうまくいかない。そこで,WAVオーディオデバイスインタフェース…

どうでもよい話だが

Google で "adaboost" を検索すると,私が以前にまとめた「はてなダイアリ」のページが上位に出てくる。別に目立たなくてもよいのに(^^)

録音の手順(とりあえずのメモ)

waveInOpen (録音用の WAVE デバイスを開く) waveInPrepareHeader (WAVE ヘッダの準備) waveInAddBuffer (バッファを加える?) waveInStart (録音開始.録音されたデータは,指定のバッファに保存される) waveInUnprepareHeader (録音が終了したら…

専攻科生用 MS-Office

Office 2007 が到着。発注ミスで遅くなったらしい(^^)

松永さん

最近,何をやっているのか確認していない。明日,軽い議論をしよう。

浜田君

入手した新聞データ'95 の誤りが判明。12万円するが,改めてデータを購入することにした。そのデータが届くまではルールベースによる照応を実現するよう,進める。 CaboCha による形態素解析の前処理として,divide_writing.[c,h] を渡した。

谷村さん

HTML文書からタグを除去するプログラムが完成。なお,忘れていた指摘は以下のとおり: タグを改行文字に置き換えること。 chasen による形態素解析の前処理として,改行を改行のままで扱うこと。(現在の divide_writing.c は改行文字をスキップするよう,作…

岩本さん

WAVデータを解析するコードを書くのは無理(時間がかかりすぎる)と判断し,これは武藤が書く。何故ならば,全く本質的でないコードだから。 昔,C で書いたクライアントのプログラム,および参考にした論文を渡して,有声音の判定,および pitch と duration…

岡崎さん

文章の主題(テーマ)の抽出を目的として,頻出語を抽出してもらった。Chasen によって名詞と判定された語のみを対象とするが,「必要」「重要」など形容動詞語幹の名詞が邪魔をするようだ。つまり,重要でない語にも関わらず頻度が高い。これらを排除するた…

VB2005 での CopyMemory()

CopyMemory() や MoveMemory() を使おうとすると,「AccessViolationExceptionはハンドルされませんでした」および「保護されているメモリに読み取りまたは書き込み操作を行おうとしました。他のメモリが壊れていることが考えられます。」が出て悩むこと,2…

挙動不審な OpenOffice (spreadsheet)

OpenOffice の .ods 形式でデータを保存した場合,そのアイコンが(1度でもクリックすると)Java アーカイブのアイコンに変化する。武藤のところでは発生しないが,岡崎さんのマシンで確実に発生。その原因をネットで(ちょこっと)探してみたが,見つから…

WAVファイルの操作

サンプルプログラムを理解できるようになってきた。WAVデータのヘッダ部の読み取りが完了。データ部へのオフセットを求めるところまで来た。サンプルプログラムではオーディオ再生を目的としているため,「一部のデータを読んで,残りを読んで」という定番の…

松永さん

TF/IDF の実装で悩んでいるらしい。 MS-Office Professional academic version の CD が到着。明日,インストールしてもらう。それと,インターンシップの報告書作成を急ぐべし。

浜田君

何,していたのかな? 毎日新聞'95の CD-ROM が到着。京都コーパスの Web ページに,CD 内のデータを読み出すツールが公開されているとのこと。

岩本さん

WAVファイルを操作するサンプルプログラム(VBのクラス)を渡した。MMIO系の関数の使い方の理解を試みたようだ。

岡崎さん

複数の文書を解析して,頻出語を抽出。次の課題は,得られた頻出語が文書の主題を表現できているか,主観的に判定すること。

谷村さん

アクティブなブックマーク・ユーザ(e.g.最近の1週間以内にブックマークしたユーザ)を見つける機構が完成。次は,Web 文書の類似性を求めるのが仕事。類似性については,形態素解析の結果として得られる形態素のうち,語の出現頻度を特徴ベクトルとするベ…

昼食

岡崎さんがアルバイトしているカレー屋さんの辛口カレー。これは美味しい。

谷村さん

アクティブな「はてな」ブックマークユーザを見つけるため,ブックマークの timestamp と現在の時刻を比較する関数を作成。

岡崎さん

何を進めたのだろうか? とりあえず指示したのは,文書中の形態素の頻度がその文書の内容(テーマ)を表現できているか,主観的に評価すること。

岩本さん

MMIOのプログラムを書いて,WAVデータからヘッダ部を抜き出す必要がある。しかし,武藤も作ってみようと思うが,VB用のサンプルプログラムが見つからず,苦労している。 昔のVBでのサンプルっぽい・・・VB2005とは内部ビット数が異なっている(VB6での Long …

類似の発想

はてブユーザ間の類似度 - Life like a clownはてブユーザ間の類似度 - Life like a clown はてなダイアリーのユーザ別ブックマーク数をグラフ化

はてなブックマークからの情報収集は難しい

seed Web page → bookmarkers → bookmarked Web pages → bookmarkers ... というサイクルでブックマーカー(ユーザ)の所有しているブックマークを入手しようとしたが,木構造が急激に大きくなること,また「はてな」からのレスポンスの遅さもあり,うまくい…

岩本さん

音声の入出力を行い,WAV 形式で保存・再生するプログラムが完成したようだ。ただし,動作チェックはなされていない。これが完成したら,次は「WAV データから pitch と duration を抽出するアルゴリズム」を理解し,クライアント(windows)側で実装すること…

谷村さん

上述の「木が急激に大きくなって手に負えなくなる」問題を考慮して,方針転換する。検索者が任意に検索したページを seed として,それと類似したページをブックマークしているユーザ(bookmarker)を探し,そのユーザを推薦するシステムを考えることにする。