cjk_bigram
过滤器形成了由standard
tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer
(见analysis-icu
插件 )。
默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams
标志设置为true
。 这可以用于组合的unigram +二进制格式。
在han
, hiragana
, katakana
和hangul
中为字符生成Bigram,但对于具有ignored_scripts
参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。
{
"index" : {
"analysis" : {
"analyzer" : {
"han_bigrams" : {
"tokenizer" : "standard",
"filter" : ["han_bigrams_filter"]
}
},
"filter" : {
"han_bigrams_filter" : {
"type" : "cjk_bigram",
"ignored_scripts": [
"hiragana",
"katakana",
"hangul"
],
"output_unigrams" : true
}
}
}
}
}