Καλύτερα και από JPEG; Stable Diffusion καλύτερη συμπίεση εικόνων

Την περασμένη εβδομάδα, ο Ελβετός μηχανικός λογισμικού Matthias Buhlmann ανακάλυψε ότι το δημοφιλές μοντέλο σύνθεσης εικόνας θα μπορούσε να συμπιέσει υπάρχουσες εικόνες bitmap με λιγότερα οπτικά artifacts από τις μορφές ή WebP σε υψηλούς τόνους συμπίεσης, αν και προς το παρόν υπάρχουν ορισμένες απώλειες.

compress

Το Stable Diffusion είναι ένα AI μοντέλο σύνθεσης εικόνων που συνήθως δημιουργεί εικόνες με βάση περιγραφές κειμένου (που ονομάζονται “προτροπές”). Το AI μοντέλο έμαθε αυτή την ικανότητα μελετώντας εκατομμύρια εικόνες από το Διαδίκτυο. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το μοντέλο κάνει στατιστικούς συσχετισμούς μεταξύ εικόνων και σχετικών λέξεων, κάνοντας μια πολύ μικρότερη αναπαράσταση βασικών πληροφοριών για κάθε εικόνα και αποθηκεύοντάς τες σαν “weights”, τα οποία είναι μαθηματικές τιμές που αντιπροσωπεύουν αυτό που γνωρίζει το AI για τις εικόνες.

Όταν το Stable Diffusion αναλύει και “συμπιέζει” τις εικόνες σε μορφή weights, και αυτές υπάρχουν σε αυτό που οι ερευνητές αποκαλούν “λανθάνον χώρο”, που είναι ένας τρόπος να πούμε ότι υπάρχουν σαν ένα είδος ασαφών δεδομένων που μπορούν να μετατραπούν σε εικόνες μόλις αποκωδικοποιηθούν. Με το Stable Diffusion 1.4, το αρχείο weights φτάνει περίπου τα 4GB, αλλά αντιπροσωπεύει την γνώση για εκατοντάδες εκατομμύρια εικόνες.

  Hackers έστειλαν όλα τα Yandex Taxi σε μια πλατεία

Ενώ οι περισσότεροι χρησιμοποιούν το Stable Diffusion με προτροπές κειμένου, ο Buhlmann αφαίρεσε τον κωδικοποιητή κειμένου και δημιούργησε τις εικόνες του μέσω της διαδικασίας του κωδικοποιητή εικόνων του Stable Diffusion, ο οποίος παίρνει μια εικόνα χαμηλής ανάλυσης 512×512 και τη μετατρέπει σε αναπαράσταση λανθάνοντος χώρου υψηλότερης ακρίβειας στα 64×64. Σε αυτό το σημείο, η εικόνα υπάρχει σε πολύ μικρότερο μέγεθος δεδομένων από το πρωτότυπο, αλλά εξακολουθεί να μπορεί να επεκταθεί (να αποκωδικοποιηθεί) σε μια εικόνα 512×512 με αρκετά καλά αποτελέσματα.

Κατά τις δοκιμές, ο Buhlmann διαπίστωσε ότι οι εικόνες που συμπιέζονταν με σταθερή διάχυση (Stable Diffusion) φαινόταν υποκειμενικά καλύτερες σε υψηλότερη συμπίεση (μικρότερο μέγεθος αρχείου) από άλλες αντίστοιχες σε μορφή JPEG ή WebP.

s candy

Το παραπάνω παράδειγμα, δείχνει μια φωτογραφία ενός ζαχαροπλαστείου που είναι συμπιεσμένη στα 5,68 KB χρησιμοποιώντας JPEG, 5,71 KB χρησιμοποιώντας WebP και 4,98 KB χρησιμοποιώντας την σταθερή διάχυση.
Η εικόνα με το Stable Diffusion φαίνεται να έχει περισσότερες λεπτομέρειες και λιγότερα εμφανή artifacts συμπίεσης από εκείνα που έχουν άλλες μορφές.

  Crypto com ζήτησαν 100 δολάρια και επέστρεψαν 10.5 εκατ.

Ωστόσο, η μέθοδος του Buhlmann έχει προς το παρόν σημαντικούς περιορισμούς:

Δεν είναι καλή με πρόσωπα ή με κείμενο και σε ορισμένες περιπτώσεις, μπορεί να προσθέσει χαρακτηριστικά στην αποκωδικοποιημένη εικόνα που δεν υπήρχαν στην αρχική εικόνα. Κανείς φυσικά δεν θέλει να εφεύρει ο συμπιεστής εικόνας που χρησιμοποιεί λεπτομέρειες που δεν υπάρχουν σε μια εικόνα.

Επίσης, η αποκωδικοποίηση απαιτεί το αρχείο weights του Stable Diffusion που φτάνει τα 4GB και χρειάζεται επιπλέον χρόνο αποκωδικοποίησης.

Ο κώδικας του Buhlmann και περισσότερες τεχνικές λεπτομέρειες υπάρχουν στο Google Colab και στο Towards AI.

jpeg,Stable Diffusion,συμπίεση εικόνων,iguru

Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).


2  +  3  =