A Google új AI-alapú rendszerre, a Speech-to-Retrievalre (S2R) vált a hangkeresésben, hogy gyorsabb és pontosabb találatokat biztosítson a felhasználóknak.
Hogyan működik az S2R?
Az S2R rendszer kihagyja a hagyományos hang→szöveg lépést: a beszédet közvetlenül a visszakereséshez használja.
Ez a megközelítés csökkenti a transzkripciós hibákból adódó félreértéseket és a kontextusvesztést, így a keresés természetesebb és megbízhatóbb eredményeket ad.
A technológia két enkóderes architektúrán alapul:
- egy audio-enkóder alakítja a hangalapú lekérdezést,
- egy dokumentum-enkóder dolgozza fel a webtartalmat,
mindkettő ugyanabba a közös vektortérbe kerül, így a rendszer fogalmi hasonlóság alapján találja meg a releváns eredményeket – nem pusztán kulcsszavak egyezése alapján.
A visszakeresési folyamatot egy rangsorolási réteg követi, amely különböző relevancia- és minőségi jeleket mérlegel, hogy a legjobb találatokat adja vissza.
Mit mutatnak az eredmények?
A benchmark tesztek szerint az S2R felülmúlja a korábbi, ASR-alapú (Cascade) rendszert, és közelít az ideális alapvonalhoz. Az új megközelítés több nyelven is működik, és már éles környezetben is alkalmazzák.
A Google S2R rendszere közvetlenül a beszédből érti meg a felhasználói szándékot, ami pontosabb, kontextusban gazdagabb és megbízhatóbb találatokat eredményez a hangkeresésben.




