Την περασμένη εβδομάδα, η Meta ανακοίνωσε μια νέα μέθοδο συμπίεσης ήχου με τεχνητή νοημοσύνη που ονομάζεται “EnCodec”. Η νέα μέθοδος φέρεται να συμπιέζει τον ήχο 10 φορές περισσότερο από τη μορφή MP3 στα 64 kbps χωρίς απώλεια ποιότητας.
Η Meta αναφέρει ότι αυτή η τεχνική θα μπορούσε να βελτιώσει σημαντικά την ποιότητα του ήχου της ομιλίας σε συνδέσεις χαμηλού εύρους ζώνης, όπως τηλεφωνικές κλήσεις σε περιοχές με ανεπαρκείς υπηρεσίες.
Η ίδια τεχνική λειτουργεί και για τη μουσική.
Η Meta ανακοίνωσε την τεχνολογία στις 25 Οκτωβρίου σε μια εργασία με τίτλο “High Fidelity Neural Audio Compression“, με συγγραφείς τους AI ερευνητές της Meta, Alexandre Defossez, Jade Copet, Gabriel Synnaeve και Yossi Adi.
Η Meta δημοσίευσε επίσης μια περίληψη της έρευνας στο blog της.
Η εταιρεία περιγράφει τη μέθοδό του σαν ένα σύστημα τριών μερών που έχει εκπαιδευτεί να συμπιέζει τον ήχο σε ένα επιθυμητό μέγεθος στόχο. Πρώτον, ο κωδικοποιητής μετατρέπει τα ασυμπίεστα δεδομένα σε μια αναπαράσταση “λανθάνοντος χώρου” χαμηλότερου ρυθμού καρέ.
Στη συνέχεια, ο “κβαντιστής” συμπιέζει την αναπαράσταση στο μέγεθος του στόχου, ενώ βρίσκει τις πιο σημαντικές πληροφορίες που θα χρησιμοποιηθούν αργότερα για την αναδόμηση του αρχικού σήματος. (Αυτό το συμπιεσμένο σήμα θα είναι αυτό που θα αποστέλλεται μέσω ενός δικτύου ή θα αποθηκεύεται στο δίσκο.) Τέλος, ο αποκωδικοποιητής μετατρέπει τα συμπιεσμένα δεδομένα σε ήχο σε πραγματικό χρόνο χρησιμοποιώντας ένα νευρωνικό δίκτυο σε μία μόνο CPU.
“Το κλειδί για τη συμπίεση με απώλειες είναι ο εντοπισμός αλλαγών που δεν μπορούν να γίνουν αντιληπτές από τον άνθρωπο. Έτσι η τέλεια ανακατασκευή είναι αδύνατη σε χαμηλούς ρυθμούς bit.”
“Για να έχουμε καλύτερα αποτελέσματα, χρησιμοποιούμε διακριτικά για να βελτιώσουμε την αντιληπτική ποιότητα των δειγμάτων που δημιουργούνται.”