fingerprint
过滤器发出单个token,该token对于指纹身份的文本和/或提供可以被聚类的token是有用的。 它通过排序token,重复数据删除,然后将它们连接回单个token来实现。
如文本:["the", "quick", "quick", "brown", "fox", "was", "very", "brown"],将会被转化为单个token: "brown fox quick the very was",注意token是按字母顺序排列的,并且只有一个"quick"
。
设置 | 描述 |
---|---|
separator |
默认为空格。 |
max_output_size |
默认为255 。 |
因为一个字段可能有许多独特的token,所以重要的是设置一个阈值,使得字段不会变得太大。 max_output_size
设置控制此行为。 如果连接的指纹增长大于max_output_size
,则过滤器将退出并且不会发出token(例如,该字段将为空)。