Hier is hoe Live Caption van Android 10 eigenlijk werkt

Schrijver: Peter Berry
Datum Van Creatie: 16 Lang L: none (month-012) 2021
Updatedatum: 1 Juli- 2024
Anonim
COC ROYAL GHOST HALLOWEEN SPECIAL LIVE
Video: COC ROYAL GHOST HALLOWEEN SPECIAL LIVE

Inhoud


Live Caption is een van de coolste Android-functies tot nu toe, met behulp van machine learning op het apparaat om ondertitels te genereren voor lokale video's en webclips.

Google heeft een blogpost gepubliceerd die precies beschrijft hoe deze handige functie werkt, en het bestaat eigenlijk uit drie machine learning-modellen op het apparaat, om te beginnen.

Er is een terugkerend neuraal netwerksequentie-transductie (RNN-T) model voor spraakherkenning zelf, maar Google gebruikt ook een terugkerend neuraal netwerk voor het voorspellen van interpunctie.

Het derde model voor machine learning op het apparaat is een convolutioneel neuraal netwerk (CNN) voor geluidsgebeurtenissen, zoals vogels fluiten, mensen klappen en muziek. Google zegt dat dit derde model van machine learning is afgeleid van zijn werk aan de Live Transcribe-toegankelijkheidsapp, die spraak- en geluidsgebeurtenissen kan transcriberen.

De impact van Live Caption verminderen

Het bedrijf zegt dat het een aantal maatregelen heeft genomen om het batterijverbruik en de prestatie-eisen van Live Caption te verminderen.Ten eerste werkt de volledig automatische spraakherkenning (ASR) -motor alleen wanneer spraak daadwerkelijk wordt gedetecteerd, in tegenstelling tot constant op de achtergrond.


“Als er bijvoorbeeld muziek wordt gedetecteerd en er geen spraak aanwezig is in de audiostream, verschijnt het label op het scherm en wordt het ASR-model verwijderd. Het ASR-model wordt alleen terug in het geheugen geladen als er weer spraak in de audiostream aanwezig is, ”legt Google uit in zijn blogpost.

Google heeft ook technieken gebruikt zoals snoeien van de neurale verbinding (het spraakmodel verkleinen), het stroomverbruik met 50% verminderen en Live Caption continu laten werken.

Google legt uit dat de resultaten van spraakherkenning een paar keer per seconde worden bijgewerkt terwijl het bijschrift wordt gevormd, maar de voorspelling van interpunctie is anders. De zoekgigant zegt dat het interpunctie voorspelt "aan de staart van de tekst van de meest recent erkende zin" om de vraag naar middelen te verminderen.

Live Caption is nu beschikbaar in de Google Pixel 4-serie en Google zegt dat het 'binnenkort' beschikbaar zal zijn op de Pixel 3-serie en andere apparaten. Het bedrijf zegt dat het ook werkt aan ondersteuning voor andere talen en betere ondersteuning voor content met meerdere sprekers.


De afgelopen maanden wa de Google Pixel 4-erie een hot ticket voor preker op internet. Alle, van de pecificatie tot foto' en zelf video' van de Pixel 4-telefoon, i al bekend. Nu, 9to5Google be...

Google heeft het moeilijk om Pixel-telefoon achter zich te houden. Het helpt natuurlijk niet al het bedrijf willekeurig een foto van de telefoon tweet, maar dat i een punt....

Meer Details