Elasticsearch のインデックス解析モジュールの概要 (アナライザやトークナイザなど)

Elasticsearch で kuromoji プラグインを使用しようと思ったものの、解析 (analysis) 周りをちゃんと理解してなくて困ったりしたのでちゃんとドキュメントを読んだ。 Elasticsearch 0.90 現在の公式サイトのガイドを参考に、解析周りの概要をまとめておく。

Analysis: 解析について

参考ページ: Analysis

インデックス時とクエリ文字列の解析 (入力された文字列をどこで区切るのか、とか) にアナライザが使用される。インデックス解析モジュールの記述 (?) でアナライザを定義できる。インデックス解析モジュールとアナライザの概要は次の通り。

インデックス解析モジュール (The index analysis module)
- 次の 2 つの場面で使用されるアナライザ (Analyzers) を登録するのに使用する:
  - ドキュメントのインデックス時に、インデックスされるフィールド (field) を分解する (break)
  - クエリ文字列 (query strings) を処理する
- Lucene アナライザに写像される (?)
アナライザ (Analyzer)
- アナライザは 1 つのトークナイザ (Tokenizer) と 0 個以上のトークンフィルタ (TokenFilters) からなる
- トークナイザの前に 1 つ以上の文字フィルタ (CharFilters) が使用される場合もある
解析モジュールは論理名 (logical names) の下にトークンフィルタやトークナイザ、アナライザを登録することができる *1
- 論理名は次の箇所で使用できる:
  - マッピングの定義 (mapping definitions)
  - 特定の API
- 解析モジュールは、組み込みのアナライザとトークンフィルタ、トークナイザを自動的に登録する (明示的に定義されていない場合)

アナライザ

参考ページ: Analyzers

アナライザについてのより詳しい話。

Elasticsearch には、すぐに使える組み込みのアナライザが付属している
あるいは、組み込みの文字フィルタやトークナイザ、トークンフィルタを組み合わせて独自のアナライザを作ることもできる

デフォルトアナライザ

マッピング定義や特定の API において、使用されるアナライザが定義されなかった場合はデフォルトのアナライザが使用される
デフォルトで使用されるアナライザを定義しておくこともできる
- default という論理名のアナライザは、インデックス時と検索 API の両方でデフォルトのアナライザとして使用される
- default_index という論理名は、インデックス時のみのデフォルトのアナライザを定義するために使用できる
- default_search という論理名は、検索時のみのデフォルトのアナライザを定義するために使用できる

アナライザのエイリアス

アナライザにはエイリアスを張ることもできる。

index :
  analysis :
    analyzer :
      standard :
        alias: [alias1, alias2]
        type : standard
        stopwords : [test1, test2, test3]

上の例では、standard という論理名のアナライザに、alias1 と alias2 という名前でエイリアスを張っている。