JPL της NASA συλλογή και διάθεση 8 εκατομμυρίων κακόβουλων PDF

Το Jet Propulsion Laboratory (JPL) της NASA δημιούργησε το μεγαλύτερο ανοιχτό αρχείο με PDF ως μέρος του προγράμματος Safe Documents της DARPA. Στόχος αυτής της κίνησης είναι η βελτίωση της ασφάλειας στο διαδίκτυο.

Το αρχείο αποτελείται από περίπου 8 εκατομμύρια PDF που έχουν συλλεχθεί από το Διαδίκτυο.

world data

“Τα PDF χρησιμοποιούνται παντού και είναι σημαντικά για συμβόλαια, νομικά έγγραφα, τρισδιάστατα σχέδια μηχανικής και πολλούς άλλους λόγους. Δυστυχώς, είναι πολύπλοκα και μπορούν να παραβιαστούν για την απόκρυψη κακόβουλου κώδικα ή την διανομή διαφορετικών πληροφοριών με κακόβουλο τρόπο”, ανέφερε ο Tim Allison, επιστήμονας δεδομένων στην JPL στη Νότια Καλιφόρνια.

“Για να αντιμετωπίσουμε αυτές και άλλες προκλήσεις από τα PDF, ένα μεγάλο δείγμα από PDF του πραγματικού κόσμου θα πρέπει να συλλεχθεί από το Διαδίκτυο για να δημιουργηθεί ένας κοινόχρηστος, δωρεάν διαθέσιμος πόρος για τους ειδικούς λογισμικού.”

Η δημιουργία του αρχείου δεν ήταν εύκολη υπόθεση. Η ομάδα του Allison χρησιμοποίησε το Common Crawl, ένα ανοιχτό λογισμικό αποθήκευσης δεδομένων από την ανίχνευση του web, για να εντοπίσουν τα PDF που απαρτίζουν το αρχείο. Όλα τα αρχεία είναι δημόσια διαθέσιμα και όχι πίσω τείχη προστασίας ή ιδιωτικά δίκτυα.

Η συλλογή των αρχείων διεξήχθη από τον Ιούλιο μέχρι και τον Αύγουστο του 2021, και το λογισμικό ανίχνευσης εντόπισε περίπου 8 εκατομμύρια PDF.

Το πλήρες σύνολο των δεδομένων είναι περίπου 8 terabyte, καθιστώντας το σαν το μεγαλύτερο αρχείο του είδους του που είναι διαθέσιμο στο κοινό.

Το αρχείο αυτό θα βοηθήσει τους ερευνητές να εντοπίζουν απειλές. Οι ερευνητές απορρήτου, θα μπορούσαν να μελετήσουν αυτά τα αρχεία για να προσδιορίσουν πώς μπορεί να βελτιωθεί το λογισμικό δημιουργίας και επεξεργασίας αρχείων για την καλύτερη προστασία των προσωπικών δεδομένων.

Οι προγραμματιστές λογισμικού θα μπορούσαν να χρησιμοποιήσουν τα αρχεία για να βρουν σφάλματα στον κώδικά τους και να ελέγξουν εάν οι παλιές εκδόσεις λογισμικού εξακολουθούν να είναι συμβατές με νεότερες εκδόσεις PDF.

Το Digital Corpora project φιλοξενεί το τεράστιο αρχείο δεδομένων ως μέρος του προγράμματος Open Data Sponsorship της Amazon Web Services και τα αρχεία έχουν συσκευαστεί σε αρχεία zip για εύκολη λήψη.

iGuRu.gr The Best Technology Site in Greeceggns

Get the best viral stories straight into your inbox!















Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).