有几个词元过滤器可用于尝试规范某种语言的特殊字符。
| 阿拉伯 | arabic_normalization
|
| 德语 | german_normalization
|
| 印地语 | hindi_normalization
|
| 印度 | indic_normalization
|
| 库尔德语(Sorani) | sorani_normalization
|
| 波斯语 | persian_normalization
|
| 斯堪的纳维亚文 | scandinavian_normalization
, scandinavian_folding
|
| 塞尔维亚 | not-released-yet[serbian_normalization
], |