2015-01-01から1年間の記事一覧

形態素解析のための語彙辞書を作る

前回でChaSen形式のコーパスリーダーを作ったので、続いてコーパス中に出てくる単語を集めて語彙辞書を作ります。この辞書を形態素解析器の単語知識のソースにする予定です。 語彙辞書のフォーマット まず辞書のフォーマットを次のように決めておきます。 ・…

自然言語処理プログラムを自作していく

Pythonの勉強がてら日本語用の自然言語処理ライブラリを見よう見まねで作ってみます。 途中で根本的に間違う可能性もありますが、失敗も含めて勉強の過程を生々しく書いていけたらと思います。まずは形態素解析器の実装を目指していきます。 形態素解析器を…