Την περασμένη εβδομάδα, ο Ελβετός μηχανικός λογισμικού Matthias Buhlmann ανακάλυψε ότι το δημοφιλές μοντέλο σύνθεσης εικόνας Stable Diffusion θα μπορούσε να συμπιέσει υπάρχουσες εικόνες bitmap με λιγότερα οπτικά artifacts από τις μορφές JPEG ή WebP σε υψηλούς τόνους συμπίεσης, αν και προς το παρόν υπάρχουν ορισμένες απώλειες.
Το Stable Diffusion είναι ένα AI μοντέλο σύνθεσης εικόνων που συνήθως δημιουργεί εικόνες με βάση περιγραφές κειμένου (που ονομάζονται “προτροπές”). Το AI μοντέλο έμαθε αυτή την ικανότητα μελετώντας εκατομμύρια εικόνες από το Διαδίκτυο. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το μοντέλο κάνει στατιστικούς συσχετισμούς μεταξύ εικόνων και σχετικών λέξεων, κάνοντας μια πολύ μικρότερη αναπαράσταση βασικών πληροφοριών για κάθε εικόνα και αποθηκεύοντάς τες σαν “weights”, τα οποία είναι μαθηματικές τιμές που αντιπροσωπεύουν αυτό που γνωρίζει το AI για τις εικόνες.
Όταν το Stable Diffusion αναλύει και “συμπιέζει” τις εικόνες σε μορφή weights, και αυτές υπάρχουν σε αυτό που οι ερευνητές αποκαλούν “λανθάνον χώρο”, που είναι ένας τρόπος να πούμε ότι υπάρχουν σαν ένα είδος ασαφών δεδομένων που μπορούν να μετατραπούν σε εικόνες μόλις αποκωδικοποιηθούν. Με το Stable Diffusion 1.4, το αρχείο weights φτάνει περίπου τα 4GB, αλλά αντιπροσωπεύει την γνώση για εκατοντάδες εκατομμύρια εικόνες.
Ενώ οι περισσότεροι χρησιμοποιούν το Stable Diffusion με προτροπές κειμένου, ο Buhlmann αφαίρεσε τον κωδικοποιητή κειμένου και δημιούργησε τις εικόνες του μέσω της διαδικασίας του κωδικοποιητή εικόνων του Stable Diffusion, ο οποίος παίρνει μια εικόνα χαμηλής ανάλυσης 512×512 και τη μετατρέπει σε αναπαράσταση λανθάνοντος χώρου υψηλότερης ακρίβειας στα 64×64. Σε αυτό το σημείο, η εικόνα υπάρχει σε πολύ μικρότερο μέγεθος δεδομένων από το πρωτότυπο, αλλά εξακολουθεί να μπορεί να επεκταθεί (να αποκωδικοποιηθεί) σε μια εικόνα 512×512 με αρκετά καλά αποτελέσματα.
Κατά τις δοκιμές, ο Buhlmann διαπίστωσε ότι οι εικόνες που συμπιέζονταν με σταθερή διάχυση (Stable Diffusion) φαινόταν υποκειμενικά καλύτερες σε υψηλότερη συμπίεση (μικρότερο μέγεθος αρχείου) από άλλες αντίστοιχες σε μορφή JPEG ή WebP.
Το παραπάνω παράδειγμα, δείχνει μια φωτογραφία ενός ζαχαροπλαστείου που είναι συμπιεσμένη στα 5,68 KB χρησιμοποιώντας JPEG, 5,71 KB χρησιμοποιώντας WebP και 4,98 KB χρησιμοποιώντας την σταθερή διάχυση.
Η εικόνα με το Stable Diffusion φαίνεται να έχει περισσότερες λεπτομέρειες και λιγότερα εμφανή artifacts συμπίεσης από εκείνα που έχουν άλλες μορφές.
Ωστόσο, η μέθοδος του Buhlmann έχει προς το παρόν σημαντικούς περιορισμούς:
Δεν είναι καλή με πρόσωπα ή με κείμενο και σε ορισμένες περιπτώσεις, μπορεί να προσθέσει χαρακτηριστικά στην αποκωδικοποιημένη εικόνα που δεν υπήρχαν στην αρχική εικόνα. Κανείς φυσικά δεν θέλει να εφεύρει ο συμπιεστής εικόνας που χρησιμοποιεί λεπτομέρειες που δεν υπάρχουν σε μια εικόνα.
Επίσης, η αποκωδικοποίηση απαιτεί το αρχείο weights του Stable Diffusion που φτάνει τα 4GB και χρειάζεται επιπλέον χρόνο αποκωδικοποίησης.
Ο κώδικας του Buhlmann και περισσότερες τεχνικές λεπτομέρειες υπάρχουν στο Google Colab και στο Towards AI.