Η Cloudflare αποκάλυψε το πώς διατηρεί τους εκατομμύρια servers που λειτουργεί σε όλο τον κόσμο. Σε μια ανάρτηση της Τρίτης με τίτλο “Αυτόνομα διαγνωστικά υλικού και ανάκτηση σε κλίμακα” (Autonomous hardware diagnostics and recovery at scale), η εταιρεία εξηγεί ότι κατασκεύασε υποδομή ανεκτική σε σφάλματα που μπορεί να συνεχίσει να λειτουργεί με “μικρή έως καθόλου επίδραση” τις υπηρεσίες της.
Όμως, όπως εξηγείται από τον επικεφαλής τεχνολογίας μηχανικής υποδομής της Jet Marsical και τους μηχανικούς συστημάτων Aakash Shah και Yilin Xiong, όταν οι διακομιστές χάλασαν, η ομάδα του Data Center βασίστηκε σε μη αυτόματες διαδικασίες για τον εντοπισμό των νεκρών κουτιών. Αυτές οι διαδικασίες θα μπορούσαν να διαρκέσουν “ώρες μόνο για έναν διακομιστή και θα μπορούσαν εύκολα να “φάνε” ολόκληρη την ημέρα ενός μηχανικού.”
Αυτή βέβαια δεν είναι μια λύση που μπορεί να λειτουργήσει σε υπερκλίμακα. Οι νεκροί διακομιστές μερικές φορές παρέμεναν ενεργοποιημένοι, κοστίζοντας επιπλέον χρήματα στην Cloudflare χωρίς να παράγουν τίποτα χρήσιμο.
Εδώ έρχεται το Phoenix – ένα εργαλείο της Cloudflare που δημιουργήθηκε για να ανιχνεύει χαλασμένους διακομιστές και να εκκινεί αυτόματα τις ροές εργασίας που χρειάζονται για να τους επιδιορθώσει.
Το Phoenix κάνει μια “ανακάλυψη” κάθε τριάντα λεπτά, κατά τη διάρκεια της οποίας διερευνά έως και δύο κέντρα δεδομένων που είναι γνωστό ότι φιλοξενούν χαλασμένα κουτιά. Αυτός ο ρυθμός ανακάλυψης σημαίνει ότι το Phoenix μπορεί να βρει νεκρούς servers στο δίκτυο της Cloudflare σχεδόν άμεσα. Εάν εντοπίσει μηχανήματα που έχουν ήδη καταχωρηθεί για επισκευές, “φροντίζει να διασφαλίσει ότι η φάση ανάκτησης εκτελείται αμέσως”.