ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΔΙΚΤΥΑ ΚΟΛΜΟΓΚΟΡΟΦ - ΑΡΝΟΛΝΤ

Νέα τεχνική ανάπτυξης ερμηνεύσιμης Τεχνητής Νοημοσύνης

Τα Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ), όπως το ChatGPT, το Llama, το Bard (μετέπειτα Gemini) κ.ά., πυροδότησαν μια φρενίτιδα γύρω από την Τεχνητή Νοημοσύνη (ΤΝ) και η κούρσα των ομίλων συνεχίζεται για την ανάπτυξη ακόμα ισχυρότερων. Ομως κάθε άλλο παρά τέλεια είναι, καθώς, πέρα από τον χρόνο και την υπολογιστική ισχύ που χρειάζονται για την εκπαίδευσή τους, είναι συνήθως ασαφές το πώς φτάνουν στα συμπεράσματά τους. Κατά βάση, τα σημερινά μοντέλα ΤΝ είναι σαν «μαύρο κουτί». Βάζεις κάτι στην είσοδο και παίρνεις κάτι στην έξοδο, χωρίς εξήγηση. Γι' αυτό είναι δύσκολο να καταλάβεις αν το πρόγραμμα παράγει μια απάντηση που έχει νόημα, ή αν «σκαρφίζεται» μια απάντηση - παραίσθηση.

Η βασική αρχή λειτουργίας των μοντέλων ΤΝ είναι τα νευρωνικά δίκτυα, που έχουν βασιστεί στον οπτικό φλοιό του ανθρώπινου εγκεφάλου. Τώρα, όμως, μια ομάδα ειδικών με επικεφαλής τον φυσικό Ζίμινγκ Λιου, του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης (MIT), αναπτύσσει μια νέα προσέγγιση, που υπερβαίνει τα συμβατικά νευρωνικά δίκτυα από πολλές πλευρές. Σε επιστημονική προδημοσίευση που έκαναν τον περασμένο Απρίλη, παρουσίασαν τα δίκτυα Κολμογκόροφ - Αρνολντ (αποκαλούνται συνήθως με το αγγλικό αρκτικόλεξο KAN), τα οποία μπορούν να χρησιμοποιηθούν σε ευρύ φάσμα προβλημάτων πολύ πιο αποτελεσματικά, αλλά και να λύσουν επιστημονικά προβλήματα καλύτερα από προηγούμενες προσεγγίσεις. Ομως το βασικό τους πλεονέκτημα είναι ότι επιτρέπουν την επεξήγηση του τρόπου με τον οποίο το KAN κατέληξε στη συγκεκριμένη απάντηση, καθώς καταλήγουν σε μαθηματικές συναρτήσεις στο εσωτερικό τους, αντί απλώς για αριθμούς που δεν βγάζουν ιδιαίτερο νόημα.

Νευρωνικά δίκτυα

Σε άλλα σημεία και με διαφορετικό τρόπο επικεντρώνουν τα δίκτυα Κολμογκόροφ - Αρνολντ συγκριτικά με τα συμβατικά νευρωνικά δίκτυα

Πέρα από τα νευρωνικά δίκτυα υπάρχουν κι άλλοι αλγόριθμοι μηχανικής μάθησης, όπως τα δέντρα αποφάσεων, η γραμμική παλινδρόμηση κ.ά. Από το 2010 και μετά, όμως, τα νευρωνικά δίκτυα έχουν κυριαρχήσει. Η δομή τους αποτελείται από πολλές υπολογιστικές μονάδες («νευρώνες») διατεταγμένες σε στρώματα, το ένα πίσω από το άλλο, και συνδέσεις («συνάψεις») μεταξύ τους. Ενα σήμα εισόδου υπόκειται διαδοχικά σε επεξεργασία σε κάθε στρώμα. Αν και η εφεύρεση των νευρωνικών δικτύων προέρχεται από τη δεκαετία του 1950, μόνο μετά το 2010 έγιναν οι υπολογιστές αρκετά ισχυροί ώστε να μπορούν να εκτελέσουν αυτούς τους αλγορίθμους αποτελεσματικά, καθώς χρειάζονται μεγάλη ποσότητα δεδομένων για την εκπαίδευσή τους (όπως τα εικονοστοιχεία ή πίξελ μιας εικόνας), προκειμένου να παράγουν το κατάλληλο αποτέλεσμα (π.χ. μια περιγραφή του περιεχομένου της).

Για την εκπαίδευσή τους οι τιμές εισόδου μεταφέρονται στους «νευρώνες» του πρώτου στρώματος. Μετά πολλαπλασιάζονται με τα βάρη (αριθμητικές τιμές) των αντίστοιχων «συνάψεων» και αν το αποτέλεσμα είναι πάνω από ένα όριο, μεταφέρεται στο επόμενο επίπεδο. Οι νευρώνες του δεύτερου επιπέδου προσαρμόζουν τις αριθμητικές τιμές των συνάψεων με το πρώτο επίπεδο, και η διαδικασία επαναλαμβάνεται στα επόμενα επίπεδα, μέχρι το τελευταίο. Κατά την εκπαίδευσή του το νευρωνικό δίκτυο προσαρμόζει τα βάρη των συνάψεων, ώστε η είσοδος να παράγει την επιθυμητή έξοδο. Τα τελευταία χρόνια οι επιστήμονες έχουν καταφέρει να ανακαλύψουν τον ελάχιστο αριθμό στρωμάτων που απαιτούνται σε ένα νευρωνικό δίκτυο ώστε αυτό να καταφέρει να προσεγγίσει με αρκετή ακρίβεια το αποτέλεσμα, ανάλογα με το είδος του προβλήματος.

Από την αφάνεια στο προσκήνιο

Υπάρχει μια μαθηματική επεξεργασία που επιτρέπει σε σύνθετα προβλήματα (συναρτήσεις πολλών αγνώστων) να διατυπώνονται με απλούστερους όρους αντί να προσεγγίζονται, όπως κάνουν τα συμβατικά νευρωνικά δίκτυα. Η βάση της είναι ένα θεώρημα που ανέπτυξαν οι μαθηματικοί Αντρέι Κολμογκόροφ και Βλαντιμίρ Αρνολντ τη δεκαετία του 1960. Τις δεκαετίες του '80 και του '90 οι ειδικοί του τομέα είχαν καταλήξει στο συμπέρασμα ότι το θεώρημα αυτό δεν μπορεί να χρησιμοποιηθεί στα νευρωνικά δίκτυα, όμως η ομάδα του Λιου στο MIT κατάφερε να το βγάλει από την αφάνεια και να το αξιοποιήσει για να αναπτύξει KAN.

Η δομή των KAN είναι παρόμοια με των συμβατικών νευρωνικών δικτύων, αλλά τα βάρη δεν έχουν κάθε στιγμή μια σταθερή αριθμητική τιμή. Αντιθέτως, τα βάρη αντιπροσωπεύονται με μια μαθηματική συνάρτηση, πράγμα που σημαίνει ότι το βάρος κάθε σύναψης εξαρτάται από την τιμή της ανεξάρτητης μεταβλητής στον νευρώνα του προηγούμενου επιπέδου. Ετσι, κατά τη διάρκεια της εκπαίδευσης τα KAN δεν προσαρμόζουν τα βάρη ως απλές αριθμητικές τιμές, αλλά ως συναρτήσεις σχετιζόμενες με κάθε σύναψη. Οι συναρτήσεις δίνουν πολύ πιο πλούσια περιγραφή των βαρών συγκριτικά με τις αριθμητικές τιμές, καθώς μπορούν να αποτυπωθούν ως γραφικές παραστάσεις, που μεταφέρουν πολύ περισσότερη πληροφορία για το πώς επηρεάζουν τη λειτουργία του δικτύου. Ακριβώς επειδή τα KAN χρησιμοποιούν συναρτήσεις αντί για αριθμητικές τιμές, η εκπαίδευσή τους απαιτεί πολλαπλάσιο χρόνο. Από την άλλη, όταν καταληχτούν οι συναρτήσεις μπορούν να χρησιμοποιηθούν απευθείας, απαιτώντας λιγότερο χρόνο και επεξεργαστική ισχύ για χρήση του εκπαιδευμένου μοντέλου.

Προϋποθέσεις

Ο Λιου και οι συνάδελφοί του σύγκριναν τα KAN με τα συμβατικά νευρωνικά δίκτυα, που ονομάζονται πολυστρωματικά perceptron (MLP). Διαπίστωσαν ότι μπορούσαν να προσεγγίσουν το σωστό αποτέλεσμα πολύ πιο γρήγορα από τα MLP αντίστοιχου μεγέθους (αριθμού και στρωμάτων νευρώνων). Εφάρμοσαν επίσης τα KAN για την επίλυση προβλημάτων στο μαθηματικό πεδίο της θεωρίας των κόμβων (τοπολογία) και κατάφεραν το ίδιο αποτέλεσμα ενός MLP που είχε χρησιμοποιήσει 300.000 παραμέτρους, χρησιμοποιώντας μόλις 200 παραμέτρους.

Μέλη της επιστημονικής κοινότητας έχουν εκφραστεί στο διαδίκτυο με ενθουσιώδη τρόπο για τα KAN και τις δυνατότητές τους, με ορισμένους να μιλούν ακόμα και για εξέλιξη που «θα τα αλλάξει όλα». Μάλιστα έχουν ήδη εμφανιστεί εργαλεία διαθέσιμα στον καθέναν για ανάπτυξη μικρών KAN σε προσωπικούς υπολογιστές. Ωστόσο η πραγματική χρησιμότητά τους θα φανεί στην πράξη, ανάλογα με τις περιπτώσεις που θα κριθούν πιο αποτελεσματικά από τα MLP. Ο δεκαπλάσιος χρόνος εκπαίδευσής τους ίσως αποτελεί το μεγαλύτερο πρόβλημα για την ευρεία υιοθέτησή τους, αν και ήδη μέσα σε δύο μήνες από την εμφάνισή τους υπάρχουν τουλάχιστον δύο τεχνικές παραλλαγές τους που προσπαθούν να τον μειώσουν. Η χρήση τους στα Μεγάλα Γλωσσικά Μοντέλα ίσως εξαρτηθεί από το αν θα μπορέσουν να παράγουν σε λογικό χρόνο τα ίδια ή και καλύτερα αποτελέσματα με μικρότερο αριθμό παραμέτρων, σε σύγκριση με τα δισεκατομμύρια των παραμέτρων που χρησιμοποιούν το ChatGPT και τα άλλα ΜΓΜ.

Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγές: «Scientific American», www.nasa.gov, www.spacex.com

Νέα δοκιμαστική πτήση του Starship της «SpaceX»

Αλλο ένα βήμα βελτίωσης του πυραύλου Super Heavy και του διαστημοπλοίου Starship έκανε η «SpaceX», μετά την τέταρτη και πιο επιτυχημένη μέχρι τώρα δοκιμαστική πτήση που πραγματοποίησε την περασμένη Πέμπτη. Αυτήν τη φορά, ούτε ο πύραυλος ούτε το διαστημόπλοιο ανατινάχτηκαν ή έχασαν την επαφή με το κέντρο ελέγχου. Ο Super Heavy κατάφερε να κατέβει σε σημείο του Κόλπου του Μεξικού, όπως προβλεπόταν, αλλά όχι σε πλατφόρμα, ώστε να ξαναχρησιμοποιηθεί, ενώ και το Starship κατάφερε επίσης να «προσθαλασσωθεί», όπως προβλεπόταν, στον Ινδικό Ωκεανό. Μόνο ένας κινητήρας του πυραύλου δεν λειτούργησε αυτήν τη φορά, ενώ υπήρξαν προβλήματα και με κάποια θερμομονωτικά πλακίδια, ένα μισοκατεστραμμένο πτερύγιο και μια κάμερα του διαστημοπλοίου, που δεν άντεξαν τη θερμότητα επανεισόδου στην ατμόσφαιρα.

Η «SpaceX» προγραμματίζει νέες τροποποιήσεις στο όλο σύστημα, κάνοντας αμφίβολη τη χρήση του για την πρώτη προγραμματισμένη επανδρωμένη πτήση του προγράμματος «Αρτεμις» της NASA, με στόχο την επάνοδο των Αμερικανών στη Σελήνη το 2026. Κάθε δοκιμαστική πτήση του Starship κοστίζει εκατοντάδες εκατομμύρια δολάρια, και φαίνεται ότι θα χρειαστούν αρκετές ακόμα μέχρι ο πύραυλος - φορέας και το σκάφος να αποδειχθούν αρκετά ασφαλή ώστε να μεταφέρουν αστροναύτες.

Το Starliner καθώς πλησιάζει τον Διεθνή Διαστημικό Σταθμό για να συνδεθεί σ' αυτόν

Τα κατάφερε τελικά το Starliner της «Boeing»

Μετά από καθυστερήσεις 7 ετών και δύο αναβολές εκτόξευσης το τελευταίο δίμηνο λόγω προβλημάτων που εμφανίστηκαν στον πύραυλο Atlas V, το διαστημόπλοιο CST-100 Starliner της «Boeing» εκτοξεύτηκε την περασμένη Τετάρτη και μια μέρα αργότερα κατάφερε να συνδεθεί με τον Διεθνή Διαστημικό Σταθμό (ΔΔΣ), έχοντας πλήρωμα τους παλαίμαχους αστροναύτες της NASA, Μπουτς Γουίλμορ και Σούνι Γουίλιαμς. Για να γίνει η εκτόξευση οι υπεύθυνοι αγνόησαν μια διαρροή αερίου ηλίου από το Starliner, καθώς κρίθηκε ως μη επικίνδυνη. Κατά τη διάρκεια της πτήσης διαπιστώθηκαν άλλες δύο διαρροές ηλίου, ενώ πέντε από τους προωθητήρες ελιγμών για την προσέγγιση στον σταθμό δεν λειτούργησαν! Η πτήση πραγματοποιείται ως ολοκληρωμένη επίδειξη λειτουργικότητας του σκάφους της «Boeing», για χρήση ως μεταφορικό μέσο προσωπικού προς τον ΔΔΣ.

Σε αντίθεση με τη «SpaceX», η εταιρεία προτίμησε να ακολουθήσει την πιο συμβατική και αργή διαδικασία προετοιμασίας του, με στόχο την επιτυχία με ελάχιστες δοκιμαστικές πτήσεις, δηλαδή τη διαδικασία που ακολουθούσε και η NASA πριν αποφασιστεί η στροφή των ΗΠΑ προς την κατασκευή πυραύλων, διαστημοπλοίων και διαστημοσυσκευών άμεσα και με πλήρη ευθύνη των μονοπωλίων αεροδιαστημικής. Στην περίπτωση αυτή η «Boeing» έχασε την κούρσα, καθώς η «SpaceX» εδώ και χρόνια μεταφέρει φορτία και προσωπικό στον ΔΔΣ, με τον πύραυλο Falcon 9 και το διαστημόπλοιο Crew Dragon. Επιπλέον, το κόστος μεταφοράς ενός αστροναύτη με το Starliner φτάνει τα 90 εκατ. δολάρια, ενώ με το Dragon είναι μόνο 55, κάνοντας πιθανότερη τη χρήση του Starliner από τη NASA κυρίως ως εναλλακτική λύση.