ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

Τεχνητή Νοημοσύνη αναδημιουργεί ζωντανά εικόνες χρησιμοποιώντας τομογραφίες του εγκεφάλου εκείνου που τις βλέπει

Διαδοχικά βήματα αναδημιουργίας των εικόνων, που βλέπει ένας άνθρωπος, από εκπαιδευμένο μοντέλο ΤΝ, που χρησιμοποιεί τις πληροφορίες Λειτουργικής Μαγνητικής Τομογραφίας του εγκεφάλου του υποκειμένου

Η Λειτουργική Μαγνητική Τομογραφία (fMRI), που καταγράφει την αυξημένη ροή του αίματος σε διάφορες περιοχές του εγκεφάλου, ως ένδειξη της νευρικής δραστηριότητας σε αυτήν την περιοχή, είναι ένα από τα πιο προηγμένα εργαλεία που διαθέτουν οι επιστήμονες για να κατανοήσουν τη διαδικασία της σκέψης. Καθώς ένας άνθρωπος βρίσκεται ξαπλωμένος μέσα σε έναν τομογράφο fMRI πραγματοποιώντας διάφορες νοητικές λειτουργίες, η μηχανή παράγει πολύχρωμες εικόνες του εγκεφάλου σε δράση.

Μελετώντας με αυτόν τον τρόπο την εγκεφαλική δραστηριότητα, οι νευροεπιστήμονες μπορούν να μάθουν ποιες περιοχές του εγκεφάλου χρησιμοποιεί το εξεταζόμενο άτομο, αλλά όχι τι σκέφτεται, τι βλέπει ή τι νιώθει. Οι ερευνητές, χωρίς ιδιαίτερη επιτυχία, προσπαθούν να «διαβάσουν» το μυαλό εδώ και αρκετές δεκαετίες. Τώρα, όμως, η Τεχνητή Νοημοσύνη (ΤΝ) τους δίνει τη δυνατότητα να σημειώσουν σημαντική πρόοδο. Δύο επιστήμονες στην Ιαπωνία συνέθεσαν δεδομένα fMRI με προηγμένη ΤΝ δημιουργίας εικόνων, ώστε να «μεταφράσουν» την εγκεφαλική δραστηριότητα των συμμετεχόντων στο πείραμα, σε εικόνες που έμοιαζαν ασυνήθιστα με εκείνες που τα άτομα αυτά έβλεπαν κατά τη διάρκεια των τομογραφιών.

Διεπαφή

Ο Γιου Τακάγκι, νευροεπιστήμονας του Πανεπιστημίου της Οσάκα και ένας από τους συντάκτες της έρευνας, που βρίσκεται σε προδημοσίευση (δηλαδή πριν ελεγχθεί και επικυρωθεί από άλλους επιστήμονες), θεωρεί ότι η σχετική πρόοδος μπορεί να οδηγήσει σε διεπαφές ανθρώπου - μηχανής, που θα επιτρέψουν να διαπιστωθεί αν κάποιοι ασθενείς, οι οποίοι μετά από ατύχημα δεν δείχνουν σημάδια επαφής με το περιβάλλον, διατηρούν ανώτερη εγκεφαλική λειτουργία ή όχι (έχουν συνείδηση, έστω κι αν δεν μπορούν να επικοινωνήσουν).

Ωστόσο η τεχνολογία αυτή δεν μπορεί να ονομαστεί ακριβώς «διάβασμα του μυαλού». «Δεν θεωρώ ότι προς το παρόν η τεχνολογία είναι κοντά στο να γίνει χρήσιμη σε ασθενείς - ή να χρησιμοποιηθεί για κακούς σκοπούς. Αλλά βελτιωνόμαστε από μέρα σε μέρα»(!), λέει σχετικά η Σαϊλί Τζέιν, υπολογιστική νευροεπιστήμονας στο Πανεπιστήμιο του Τέξας.

Η νέα μελέτη δεν είναι η πρώτη που επιχειρεί να χρησιμοποιήσει ΤΝ για αναδημιουργία των εικόνων που βλέπουν οι άνθρωποι. Ανάλογη προσπάθεια είχε γίνει το 2019 στο Πανεπιστήμιο του Κιότο, αλλά τα αποτελέσματα έμοιαζαν περισσότερο με αφηρημένους πίνακες ζωγραφικής, παρά με φωτογραφίες. Στη νέα έρευνα, οι επιστήμονες χρησιμοποίησαν τη Σταθερή Διάχυση, ένα μοντέλο ΤΝ για την παραγωγή εικόνων. Τα μοντέλα διάχυσης - κατηγορία γεννητριών εικόνων όπως και το DALL-E 2 της OpenAI - αποτελούν στοιχεία του πυρήνα της εκρηκτικής ανάπτυξης της ΤΝ τα τελευταία χρόνια. Αυτά τα μοντέλα μαθαίνουν προσθέτοντας θόρυβο στις εικόνες εκπαίδευσής τους. Ο θόρυβος παραμορφώνει τις εικόνες, αλλά με προβλέψιμο τρόπο, που το μοντέλο αρχίζει να μαθαίνει. Τελικά το μοντέλο μπορεί να αναδημιουργήσει τις αρχικές εικόνες από παραλλαγές τους, που μοιάζουν σκέτος θόρυβος.

Σταθερή Διάχυση

Η Σταθερή Διάχυση εμφανίστηκε τον Αύγουστο του 2022 και έχει εκπαιδευτεί ήδη με δισεκατομμύρια φωτογραφίες και τις λεζάντες τους. Εχει μάθει να αναγνωρίζει μοτίβα στις εικόνες και γι' αυτό μπορεί να προσθέτει και να ταιριάζει οπτικά χαρακτηριστικά κατά βούληση (αυτού που τη χειρίζεται), ώστε να δημιουργήσει τελείως νέες εικόνες. Οι ερευνητές σκέφτηκαν έναν έξυπνο τρόπο για να συνδυάσουν τη Σταθερή Διάχυση με τις τομογραφίες. Οι τομογραφίες προέρχονται από παλιότερη μελέτη, στην οποία 8 συμμετέχοντες δέχτηκαν να ξαπλώνουν κατά τη διάρκεια ενός έτους μέσα σε έναν τομογράφο fMRI και να βλέπουν εικόνες. Το αποτέλεσμα ήταν μια τεράστια τράπεζα δεδομένων fMRI, που δείχνουν πώς τα κέντρα όρασης του ανθρώπινου εγκεφάλου (ή τουλάχιστον των εγκεφάλων αυτών των οκτώ συμμετεχόντων) αντιδρούν σε καθεμιά από τις εικόνες. Τελικά οι ερευνητές χρησιμοποίησαν τα δεδομένα των τεσσάρων από τους συμμετέχοντες.

Για να αναδημιουργήσει τις εικόνες, το μοντέλο ΤΝ χρησιμοποιεί δύο τύπους πληροφοριών: Οπτικές πληροφορίες χαμηλού επιπέδου και πληροφορίες ανώτερου επιπέδου σχετικά με το νόημά τους. Ετσι δεν αντιμετωπίζει, για παράδειγμα, την εικόνα ως ένα μακρουλό αντικείμενο σε γαλάζιο υπόβαθρο, αλλά ως αεροπλάνο στον ουρανό. Κάτι ανάλογο κάνει και ο ανθρώπινος εγκέφαλος, επεξεργαζόμενος τις σχετικές πληροφορίες σε δύο διαφορετικές περιοχές του. Οι ερευνητές χρησιμοποίησαν γραμμικά μοντέλα για να συνδυάσουν τις χαμηλού επιπέδου οπτικές πληροφορίες κάθε τομογραφίας με τα αντίστοιχα στοιχεία της ΤΝ και το ανάλογο έκαναν με τις υψηλού επιπέδου (σημασιολογικές) πληροφορίες. Μετά απ' αυτό, η ΤΝ μπορούσε να αναγνωρίσει στις τομογραφίες ανεπαίσθητα μοτίβα ενεργοποίησης περιοχών του εγκεφάλου. Οταν της δόθηκαν τομογραφίες που δεν είχε ξαναδεί και της ζητήθηκε να φτιάξει τις αντίστοιχες εικόνες, παρήγαγε οπτικό υλικό που επέτρεπε στους ερευνητές να διαπιστώσουν πόσο κοντά στο πρωτότυπο έπεσε. Η σημαντική επιτυχία του πειράματος δεν είναι βέβαια απόδειξη ότι ο εγκέφαλος λειτουργεί με αυτόν ακριβώς τον τρόπο.

Περιορισμοί και προειδοποιήσεις

Οσο εκπληκτική κι αν φαίνεται αυτή η τεχνολογία, έχει αρκετούς περιορισμούς. Κάθε μοντέλο πρέπει να εκπαιδευτεί και να χρησιμοποιήσει τα δεδομένα ενός μόνο ανθρώπου. Αν κάποιος ήθελε να αναδημιουργήσει τις εικόνες που βλέπει ένας άνθρωπος, θα έπρεπε να τον πείσει να μπει σε έναν θορυβώδη κλειστοφοβικό τομογράφο, να μείνει απολύτως ακίνητος και να συγκεντρωθεί στην παρατήρηση χιλιάδων εικόνων. Επειδή τα μοντέλα είναι αποτελεσματικά μόνο για το είδος δεδομένων για το οποίο εκπαιδεύτηκαν, ένα μοντέλο για εικόνες δεν μπορεί να αποκωδικοποιήσει τις σκέψεις, αν και πολλές ερευνητικές ομάδες εργάζονται προς την κατεύθυνση αυτή.

Παραμένει ασαφές αν αυτή η νέα τεχνολογία μπορεί να αναδημιουργήσει τις εικόνες που φαντάζεται κάποιος, αντί να τις βλέπει με τα μάτια του. Αυτή ακριβώς η ικανότητα είναι απαραίτητη για εφαρμογές, όπως διεπαφές εγκεφάλου - υπολογιστή, που θα επιτρέπουν να επικοινωνήσει ένας άνθρωπος που δεν μπορεί να μιλήσει ούτε να κάνει εκφράσεις με το σώμα του, αλλά και στρατιωτικές εφαρμογές, που είναι άλλωστε ο απώτερος στόχος χρηματοδότησης αυτών των ερευνών, πίσω από το ιατρικό προκάλυμμα. Οι τρέχοντες περιορισμοί αυτής της τεχνολογίας «δεν είναι επαρκής δικαιολογία ώστε να πάρει κανείς αψήφιστα τους κινδύνους της αποκωδικοποίησης (σ.σ. της σκέψης)», λέει η Τζέιν και προσθέτει: «Θεωρώ ότι τώρα είναι η ώρα να σκεφτούμε γύρω από το θέμα της ιδιωτικότητας και των αρνητικών χρήσεων αυτής της τεχνολογίας, έστω κι αν δεν βρίσκεται ακόμη στο στάδιο της πραγματοποίησης». Παρά τις καλές προθέσεις της ερευνήτριας, είναι άραγε επαρκής η προτροπή αυτή; Θα βάλουν οι λύκοι καπιταλιστές περιοριστικούς κανόνες, που θα τηρήσουν στον μεταξύ τους ανταγωνισμό; Η μόνη εξασφάλιση από τέτοιους κινδύνους είναι ένα σύστημα κοινωνικής οργάνωσης που δεν θα λειτουργεί με ύψιστο νόμο το κυνήγι του κέρδους αλλά την ευημερία όλων των εργαζομένων, χωρίς δυνατότητα εκμετάλλευσης ανθρώπου από άνθρωπο.

Επιμέλεια:
Σταύρος Ξενικουδάκης
Πηγή: «Scientific American»