![COC ROYAL GHOST HALLOWEEN SPECIAL LIVE](https://i.ytimg.com/vi/ORh09y2yZjs/hqdefault.jpg)
Inhoud
Live Caption is een van de coolste Android-functies tot nu toe, met behulp van machine learning op het apparaat om ondertitels te genereren voor lokale video's en webclips.
Google heeft een blogpost gepubliceerd die precies beschrijft hoe deze handige functie werkt, en het bestaat eigenlijk uit drie machine learning-modellen op het apparaat, om te beginnen.
Er is een terugkerend neuraal netwerksequentie-transductie (RNN-T) model voor spraakherkenning zelf, maar Google gebruikt ook een terugkerend neuraal netwerk voor het voorspellen van interpunctie.
Het derde model voor machine learning op het apparaat is een convolutioneel neuraal netwerk (CNN) voor geluidsgebeurtenissen, zoals vogels fluiten, mensen klappen en muziek. Google zegt dat dit derde model van machine learning is afgeleid van zijn werk aan de Live Transcribe-toegankelijkheidsapp, die spraak- en geluidsgebeurtenissen kan transcriberen.
De impact van Live Caption verminderen
Het bedrijf zegt dat het een aantal maatregelen heeft genomen om het batterijverbruik en de prestatie-eisen van Live Caption te verminderen.Ten eerste werkt de volledig automatische spraakherkenning (ASR) -motor alleen wanneer spraak daadwerkelijk wordt gedetecteerd, in tegenstelling tot constant op de achtergrond.
“Als er bijvoorbeeld muziek wordt gedetecteerd en er geen spraak aanwezig is in de audiostream, verschijnt het label op het scherm en wordt het ASR-model verwijderd. Het ASR-model wordt alleen terug in het geheugen geladen als er weer spraak in de audiostream aanwezig is, ”legt Google uit in zijn blogpost.
Google heeft ook technieken gebruikt zoals snoeien van de neurale verbinding (het spraakmodel verkleinen), het stroomverbruik met 50% verminderen en Live Caption continu laten werken.
Google legt uit dat de resultaten van spraakherkenning een paar keer per seconde worden bijgewerkt terwijl het bijschrift wordt gevormd, maar de voorspelling van interpunctie is anders. De zoekgigant zegt dat het interpunctie voorspelt "aan de staart van de tekst van de meest recent erkende zin" om de vraag naar middelen te verminderen.
Live Caption is nu beschikbaar in de Google Pixel 4-serie en Google zegt dat het 'binnenkort' beschikbaar zal zijn op de Pixel 3-serie en andere apparaten. Het bedrijf zegt dat het ook werkt aan ondersteuning voor andere talen en betere ondersteuning voor content met meerdere sprekers.