このページは当サイトをMovable Typeで運営していた頃の記事のログです.
表記のcategoryやコメント,トラックバックは機能しておりません.
その他,サイト内リンクや画像のパスが間違っている部分がある可能性があります.
ご了承ください.
形態素解析エンジンSenのインストールで躓いたことを適当にメモ・・。
なお、環境はWindowsXP pro+eclipseです。
▼ インストール
公式サイトでCygwinが必要かもとかありましたが、必要なしでした。
(>>つか動作確認の~.shの実行で必要なのかも?)
インストールだけならantとperl(自分はactive perl使用)で大丈夫でした。
▼ 使用時 - その1.辞書
コンフィギュレーションファイル?の"conf/sen.xml"のパスでエラーが出て困ってました。
StringTagger.javaのString confPathにて出現する
System.getProperty("sen.home")
がnullを返してまして・・。
使用例では
% export SEN_HOME=/usr/local/sen-1.0
で環境変数として設定できてるっぽいですが(この辺がCygwinが必要な部分?)、
Windowsの環境変数でSEN_HOMEとか設定してもダメで、
結局、Javaプログラムのmain部分で
System.setProperty("sen.home","D:\\・・・\\sen-1.0");
とかやって無理やり解決。
▼ 使用時 - その2.
スペースや改行で長い隙間が開くと、ちゃんと解析してくれない?
↓
StreamTaggerのint BUFFER_SIZE = 64
が原因ぽい。
というかちゃんと読めば当たり前ですね・・。
一度に読み込んだバッファに空白文字等を除いた、いわゆる言葉が含まれていないと
そこで解析が終わってしまうんですね。
ということでバッファサイズ変更で解決しました。
▼ どうでもいいこと
sen.xmlなどのxmlファイルを編集する際、
メモ帳で編集~保存すると文字コードが強制的にSJIS?になって使えなくなりました。
xyzzyなんかで編集した方がよさげ。
以上、素人のメモでした
ちょっと試しに追記
Posted by TF22 at 2004年09月07日 20:42 | TrackBacksenの利用を検討しています。
Dosで動いているのにEclipseでsenを取り込むとうまくいかず、行き詰っていました。
と、こちらのサイトの情報をヒントに
Javaプログラムのmain部分に
System.setProperty("sen.home","D:\\・・・\\sen-1.0");
と追加してみたところ、Eclipseでも動くようになりました。こちらで情報の提供して下さったお陰と感謝しております。ありがとうございました。
>>K. K.様
はじめまして.
お越しいただき有難うございます.
私もこの部分には悩まされまして
個人的な備忘録としてこの記事を残したのですが,
お役に立てたようで幸いです.
コメントをいただき有難うございました.
# 改めて確認いたしましたところ,
# 現在では公式サイト( http://ultimania.org/sen/ )でも
# この手法は説明されているようです.
# 他にVM引数で指定する方法もあるみたいですね.