ブログ移設しました。

bloggerから記事を移設しました。


HUGOで記事を書いてみると思いのほか書きやすかったので移動。

火曜日, 3月 13, 2007

Namazuシステムの構築と活用[part1]

 今日は本通りにNamazuのインストールおよびシステムの構築と活用について情報を厳選して書くつもりです。

まず、本をひらいてみましょう。。。
TOPに前書きがありまして、Namazuのことについてかかれてます。目次を並べてみます。
全文検索システムとはなにか
インターネットと全文検索システム爆発的なインターネットの普及
インターネット上の情報の特徴
インターネットの普及がもたらしたもの
新しい情報検索方法の必要性
サーチエンジンの登場
サーチエンジンは自分でも作れる!

Webサービスと全文検索
全てのWebサーバに検索フォームを!
イントラネットと全文検索
メーリングリストの過去メールの効率的な公開

個人ベースでの全文検索
メールソフトとの連携
Webプロキシソフトとの連携

全文検索システムの基礎知識

システムの基本的な構造
全文検索システムの基本構造
インデックスーー高速検索の仕組み
分かち書きとは
検索手法
単一ワード検索
基本的な検索手法
高度な検索手法
その他の検索手法

日本語全文検索システムNamazuとは
Namazuの基礎の基礎
Namazuとは何か
Namazuの特徴

導入事例の紹介

入手方法

Namazuメールリングリスト
メールリングリスとの区分
質問するときの注意点
プロジェクトの開発スタイル

Namazuのインストール

必要なシステム構成
Namazu本体以外のツール類のインストール
Namazu本体部のインストール

UNIX系プラットホーム
Perlのインストール
nkfのインストール
KAKASIのインストール
Text-KAKASIのインストール
File-MMagicのインストール
Namazuのインストール

Windows系プラットホーム
ActivePerlのインストール
KAKASIのインストール
Namazuのインストール

各種文書のフォーマットへの対応

Namazuの基本的な使い方

実際にトライしてみよう
基本的な設定の流れ
下準備:環境変数の設定
インデックスの作成
検索結果の表示

トラブルシューティング

オプションと設定ファイル
mknmzのオプション
namazuのオプション
mknmzrcでの設定項目
namazurcでの設定項目
設定ファイルの優先順位

インデックスファイルの種類

NamazuをWebサーバに組み込む

基本的な設定の流れ

Apacheを利用した設定方法
インデックスの作成
Apache設定ファイルの設定
Namazu設定ファイルの編集
検索フォームの設置
実際の動作確認

トラブルシューティング

Win32での設定
PWSを利用した設定

検索システム運用の実際

メールリングリストの記事をHTMLに変換して公開
MHonArcの概要とインストール
MHonArcを使ってHTMLに変換
インデックスを作成して検索
MHonArcをカスタマイズ
MailmanyやFMLとNAMAZUとの組み合わせ

他サイトのコンテンツを検索可能に

インデックスのメンテナンス
インデックス作成を途中でいったん中断
cronを使ったインデックス作成の自動化
分野ごとに別々のインデックスを作成
検索フォームの記述方法
Webサービスと検索機能の負荷分散

分かち書きソフト
KAKASIとChaSenの切り替え
辞書の強化
KAKASIとChaSenのいずれがよいか

よくある質問とその答え
インデクサ(mknmz)に関するFAQ
検索クライアント(namazu, namazu.cgi)に関するFAQ

Namazuを個人ベースで活用する
種々の検索クライアントの導入
TkNamazu
namazu.el
bnamazu
search-s
IENamazu

メールソフトとの連携
mew-nmz
Windowsでのメールソフト
Webプロキシソフトとの連携
wwwoffleのキャッシュ検索
日記システムとの連携
ハイパー日記システムhns
その他の日記システム
Vine LinuxやPlamo Linuxでの利用例

Namazuの高度な使い方
検索結果表示のカスタマイズ
テンプレートファイルのカスタマイズ
メッセージカタログのカスタマイズ
NMZ.file.*のカスタマイズ
キーワードを含む行の表示

様々な関連ツール
もう1つの検索クライアント pnamazu
カベージコレクタ gcnamazu
NMZ.filed.*.iを再構築 rfnmz
検索結果の表示をプレビュー vfnmz
検索にヒットした文書をさらにgrep nmzgrep
NMZ.slogを集計して表示 nlview, namazu_log
自動で文書クラスタリング gnmz
PageRankを計算 prnmz

色々な言語やツールから呼び出す
Perlから呼び出す Search::Namazu
Rubyから呼び出す rbnamazu
PHP4から呼び出す
Namazu on Java2

文書フィルターの仕組み
フィルタの仕組み
新たにフィルタを作るには
「重み付け」のメカニズム

全文検索システムの詳しい構造

全文検索システムの枠組み
情報検索システムの仕組み
grep方式と全文検索システム方式との違い
検索時の処理の流れ

要素技術の詳細
検索文書取得部分ーーーロボット
文書フィルタ
インデクサ
検索サーバと検索クライアント

日本語全文検索はなぜ難しいか
漢字コードも巡る混乱
全文検索システムにおける形態素解析
日本語シソーラス

全文検索システムの評価方法
適合率(presision)と再現率(recall)
客観的な評価方法

スコアリング

その他の全文検索システムの紹介
フリーの全文検索システム
Freya
SGSE
S.CREW(SSE)
WwwSearch
その他のシステム

商用の全文検索システム
Verity Ultrseek
PanaSearch
MitakeSearch
InfoBee
ConceptBase
その他のシステム

システムを選択するには
選択の参考指標
参考資料

全文検索システムの将来
最先端の全文検索研究のトピック
リンク構造を用いたスコアリング手法の高度化
検索結果出力の効率的な組織化
テキスト情報の可視化を利用した検索
検索ケッッか評価方法の高度か
より自然な要約を求めてーー要約技術
スケーラビリティへの挑戦ーー分散化
構造化文書の今後
全文検索ソフトの他言語化
まとめ

各種ツール類のインストール

とまぁ、このような内容になっております。目次が訳わかりませんって言うのはごめんなさい。内容がこれで見渡せれば良いので。

正直図書館の本だし、内容的には薄いんじゃないかな?って思っていたんですがかなり内容は濃いめみたいですね。

と、ここでひと休憩

0 件のコメント:

コメントを投稿