”SimHash Algoritması” Nedir?
8 Nisan 2024 Pazartesi
Bilgisayar bilimlerinde SimHash, iki setin ne kadar benzer olduğunu hızlı bir şekilde tahmin etmek için kullanılan bir tekniktir. Algoritma, Google Crawler tarafından yinelenen sayfaları bulmak için kullanılır.
2002 yılında Moses Charikar tarafından yaratıldı. SimHash algoritması, benzer kümelerin benzer parmak izlerine yol açan özellik ile kümelerin parmak izlerini hesaplayabilir. Yalnızca önceden hesaplanmış parmak izleri göz önünde bulundurularak, karşılık gelen kümeler arasındaki kosinüs benzerliği, benzer kümeleri arama veya gruplandırma gibi görevleri hızlandırmaya izin veren eşit bitlerin fraksiyonundan hızlı bir şekilde tahmin edilebilir.
2021'de Google, algoritmayı yeni oluşturulan FLoC (Kohortların Federe Öğrenimi) sisteminde de kullanma niyetini duyurdu.