CJK Bigram Token Filter(CJK Bigram词元过滤器)

简述

cjk_bigram过滤器形成了由standard tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer(见analysis-icu插件 )。

默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams标志设置为true 。 这可以用于组合的unigram +二进制格式。

han , hiragana , katakanahangul中为字符生成Bigram,但对于具有ignored_scripts参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。

示例

{
    "index" : {
        "analysis" : {
            "analyzer" : {
                "han_bigrams" : {
                    "tokenizer" : "standard",
                    "filter" : ["han_bigrams_filter"]
                }
            },
            "filter" : {
                "han_bigrams_filter" : {
                    "type" : "cjk_bigram",
                    "ignored_scripts": [
                        "hiragana",
                        "katakana",
                        "hangul"
                    ],
                    "output_unigrams" : true
                }
            }
        }
    }
}