News Google Lyra: Effizienter Sprachcodec ist jetzt Open Source

SV3N

Redakteur
Teammitglied
Dabei seit
Juni 2007
Beiträge
16.097
Google hat seinen extrem effizienten Sprachcodec „Lyra“, mit dessen Hilfe sich Sprache mit einer Datenrate von gerade einmal 3 kbit/s kodieren lässt, offengelegt und für jedermann als Open Source freigegeben. Der speziell für ARM64-Plattformen optimierte Codec setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen.

Zur News: Google Lyra: Effizienter Sprachcodec ist jetzt Open Source
 

ErichH.

Lt. Junior Grade
Dabei seit
Dez. 2006
Beiträge
355
Das Schema deutet wohl auf den Einsatz eines Vector Quantized Variational Autoencoders hin! Sehr schön zu sehen, dass moderne Algorithmen dieser Art in Anwendungen genutzt werden!

Außerdem: "...setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen." Das ist ein bisschen wie nasses Wasser, hm? Na ja, vermutlich kommt die Phrase aus dem Marketing.
 

ErichH.

Lt. Junior Grade
Dabei seit
Dez. 2006
Beiträge
355
@ET-Fan Das funktioniert mit allen Sprachen. Sie haben "einfach nur" die Spektogramme (=Frequenzverläufe) von vielen verschiedenen Sprachen und Sprechern berücksichtigt, um eine große Bandbreite an Lauten und Sprachmelodien zu erfassen.
Grundsätzlich geht's darum das Audiosignal so zu komprimieren, dass die fürs Sprachverständnis unwichtigen Bestandteile wegfallen und nur die wichtigen erhalten bleiben. Dein "Schwiizerdütsch" wird hoffentlich genug Ähnlichkeiten mit anderen erfassten Sprachen haben, um genauso "gut" komprimiert und wieder dekomprimiert werden zu können ;).
Ergänzung ()

Na ja, wenn das Video stehenbleibt, ist es doch schön, wenn wenigstens der Ton weiter verständlich übertragen wird. Und das ist einfacher, wenn er wenig Bandbreite braucht.
 

S.Kara

Commander
Dabei seit
Okt. 2013
Beiträge
2.322
3 KBit/s sind schon verdammt wenig. Das wären 1,3 MB pro Stunde.

Ohne bzw. nach Aufbrauchen meines Tarifs falle ich auf 32 KBit/s (bzw 4 KB/s). Da ist Telefonie in WhatsApp schon teilweise grenzwertig, owohl ich die 10-fache Bandbreite habe.
 

ET-Fan

Cadet 3rd Year
Dabei seit
Nov. 2010
Beiträge
61
@ErichH. Stimmt, da habe ich wohl zu viel in die News reininterpretiert. Habe irgendwie angenommen, da geht es um Spracherkennung, als ich das mit der Anlernung von 70 Sprachen gelesen habe. Aber ist ja "nur" ein Komprimierungsverfahren.
 

ErichH.

Lt. Junior Grade
Dabei seit
Dez. 2006
Beiträge
355
@Yuuri Sehr interessant, gleich mal gelesen.
LPCNet hat noch eine temporale Komponente mit drin und komprimiert sozusagen inhaltverlaufssensitiv. Ohne dass ich jetzt das Paper zur Google-Implementation gelesen hätte, würde ich denen unterstellen, dass sie ohne temporale Komponente arbeiten, d.h. einfach stur Frequenzpaket für Frequenzpaket komprimieren.
 

Gabber

Cadet 4th Year
Dabei seit
Apr. 2015
Beiträge
94

###Zaunpfahl###

Lt. Commander
Dabei seit
Jan. 2010
Beiträge
1.281
Hör zum ersten mal davon... also böse gesagt ist es eigentlich nur billige positive Werbung für Google denn es gibt schon gleichwertige Lösungen.

Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...

Nicht das Google pauschal schlecht ist. Da arbeiten auch nur Menschen aber mittlerweile gehts bei Google nur noch ums Geld, sei es auch nur indirekt. Und wenn es nur ums Geld geht kann man nicht im guten handeln das schließt sich aus so funktioniert unser Wirtschaftssystem.
 

onetwoxx

Rear Admiral
Dabei seit
Sep. 2006
Beiträge
5.426
Die bessere Audioqualität ist zwar toll, aber das Decoding zieht auch mehr am Akku, ein Grund warum ich beim Videocall Google Duo umgehe und lieber Skype nutze
 

###Zaunpfahl###

Lt. Commander
Dabei seit
Jan. 2010
Beiträge
1.281
@chartmix Vielleicht ist Abhängigkeit auch nicht das richtige Wort.

Jedenfalls brauchst du zum bauen https://en.wikipedia.org/wiki/Bazel_(software)

Aber das war doch schon immer die Strategie von Google, öffne soviel wie nötig und mache soviel wie möglich "gratis". Ansonsten wären wir heute nicht da wo wir sind. Überall Connections zu Google, Javascript Bibliotheken, Analysetools, Fonts, Betriebsysteme, Browser... bis der Anteil so groß ist das es schwierig ist wieder rauszukommen und man "eingesperrt" ist.
 

Woookie

Cadet 3rd Year
Dabei seit
März 2015
Beiträge
36
Die Qualität der Referenzschnippsel ist echt erstaunlich, verglichen mit anderen Codecs die bei 3-6kBit/s kaum noch nutzbar sind. LPC10 geht bei 2,4kBit/s noch, aber das ist dann schon sehr roboterhaft.
Nur mal als Vergleich: GSM braucht 13kBit/s in Fullrate als Low-Bandwith :D
 

Necoro

Ensign
Dabei seit
Dez. 2012
Beiträge
142
Ich kannte weder Lyra noch LPCNet.
Habe mir von beiden Beispiele angehört und bin beeindruckt.
Leider habe ich noch keinen direkten Vergleich gefunden. Ideal wäre es einmal mit eine sauberen Aufnahmesituation und einmal mit Störgeräuschen.
Hat da schon jemand was gefunden?
 
Top