Fingerprint Token Filter(指纹过滤器)

简述

fingerprint过滤器发出单个token,该token对于指纹身份的文本和/或提供可以被聚类的token是有用的。 它通过排序token,重复数据删除,然后将它们连接回单个token来实现。

示例

如文本:["the", "quick", "quick", "brown", "fox", "was", "very", "brown"],将会被转化为单个token: "brown fox quick the very was",注意token是按字母顺序排列的,并且只有一个"quick" 。

参数

设置 描述
separator 默认为空格。
max_output_size 默认为255 。

最大token大小

因为一个字段可能有许多独特的token,所以重要的是设置一个阈值,使得字段不会变得太大。 max_output_size设置控制此行为。 如果连接的指纹增长大于max_output_size ,则过滤器将退出并且不会发出token(例如,该字段将为空)。