lowercase 类型的词元过滤器,将词元文本规范化为小写。
Lowercase Token Filter 通过 language 参数支持 Greek (希腊语),Irish (爱尔兰语)和 Turkish(土耳其)小写词元过滤器。 以下是自定义分词器中的使用示例
index :
analysis :
analyzer :
myAnalyzer2 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myGreekLowerCaseFilter]
char_filter : [my_html]
tokenizer :
myTokenizer1 :
type : standard
max_token_length : 900
filter :
myTokenFilter1 :
type : stop
stopwords : [stop1, stop2, stop3, stop4]
myGreekLowerCaseFilter :
type : lowercase
language : greek
char_filter :
my_html :
type : html_strip
escaped_tags : [xxx, yyy]
read_ahead : 1024