CJK Width Token Filter(CJK宽度过滤器)

简述

cjk_width令牌过滤器归一化CJK宽度差异:

  • 将全宽ASCII变体折叠成等效的基本拉丁语
  • 将片假片变体的半角折叠成相当的假名

该令牌过滤器可以被视为NFKC / NFKD Unicode归一化的子集。 有关完整的规范化支持,请参阅analysis-icu插件 。