Μια διαφορετική προσέγγιση στην εκπαίδευση ρομπότ αντί της τροφοδοσίας τους με έναν ωκεανό δεδομένων | ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Μια διαφορετική προσέγγιση στην εκπαίδευση ρομπότ αντί της τροφοδοσίας τους με έναν ωκεανό δεδομένων

Οταν οι άνθρωποι καταλαβαίνουν τις συσχετίσεις μεταξύ των μελών ενός συνόλου συστατικών, όπως τα συστατικά των φαγητών, μπορούν να τα συνδυάσουν σε κάθε λογής νόστιμες συνταγές. Με τη γλώσσα μπορούν να κατανοήσουν προτάσεις που δεν έχουν ξανακούσει ποτέ και να συνθέσουν σύνθετες και πρωτότυπες αποκρίσεις, ακριβώς επειδή καταλαβαίνουν το νόημα των λέξεων και τους κανόνες της γραμματικής και του συντακτικού. Με τεχνικούς όρους αυτά τα δύο παραδείγματα είναι απόδειξη της «συνθετικότητας» ή της «συστηματικής γενίκευσης», που θεωρείται ως μια από τις βάσεις της ανθρώπινης νόησης. Μπορούν από τη γνώση των μερών να διαχειριστούν το όλον.

Η πραγματική συνθετική ικανότητα μπορεί να είναι κεντρικό στοιχείο του ανθρώπινου μυαλού, αλλά οι ερευνητές της μηχανικής μάθησης παλεύουν εδώ και δεκαετίες να αποδείξουν ότι τα συστήματα Τεχνητής Νοημοσύνης (ΤΝ) μπορούν επίσης να την πετύχουν. Τα παραγωγικά μοντέλα ΤΝ που εντυπωσίασαν όλο τον κόσμο ξεκινώντας από τους τελευταίους μήνες του προηγούμενου έτους και μέχρι σήμερα, μπορούν να μιμηθούν τη συνθετικότητα, παράγοντας αποκρίσεις που μοιάζουν με των ανθρώπων στα ερωτήματα και αιτήματα που τους τίθενται. Ομως, ακόμη και τα πιο προηγμένα από τα μοντέλα αυτά, όπως το GPT-3 και το GPT-4 της OpenAI, ακόμη υστερούν σε ορισμένους ελέγχους αυτής της ικανότητας. Για παράδειγμα, αν κάνετε στο ChatGPT μια ερώτηση, μπορεί αρχικά να δώσει τη σωστή απάντηση. Αν όμως συνεχίσετε να του κάνετε επιπλέον ερωτήσεις για το ίδιο ζήτημα, μπορεί να πάψει να είναι εντός θέματος ή να αρχίσει να αντιφάσκει. Αυτό είναι αποτέλεσμα της λειτουργίας των μοντέλων, που μπορούν να αναμασήσουν πληροφορία από τα δεδομένα της εκπαίδευσής τους, χωρίς όμως να κατανοούν το νόημα και τον σκοπό του λόγου που παράγουν.

Τώρα ένα νέο πρωτόκολλο εκπαίδευσης της ΤΝ επικεντρώνεται στο να επιδράσει στον τρόπο που τα νευρωνικά δίκτυα μπορούν να ενισχύσουν την ικανότητα της ΤΝ να ερμηνεύει την πληροφορία με τον τρόπο που το κάνουν οι άνθρωποι. Σύμφωνα με επιστημονική δημοσίευση πριν μερικές μέρες στο περιοδικό «Nature», τα πρώτα ευρήματα δείχνουν ότι μια συγκεκριμένη προσέγγιση στην εκπαίδευση της ΤΝ μπορεί να δημιουργήσει μοντέλα μηχανικής μάθησης με συνθετική ικανότητα, τέτοια που - τουλάχιστον σε ορισμένες περιπτώσεις - να μπορούν να γενικεύσουν το ίδιο καλά όπως οι άνθρωποι.

Για να εκπαιδεύσουν το σύστημα που φαίνεται ικανό να ανασυνδυάζει συστατικά και να καταλαβαίνει το νόημα καινούριων, σύνθετων εκφράσεων, οι ερευνητές δεν ξεκίνησαν από την οικοδόμηση της ΤΝ εκ του μηδενός. Χρησιμοποίησαν ένα τυπικό μοντέλο μετασχηματισμού, του τύπου που χρησιμοποιούν το ChatGPT και το Bard της Google, χωρίς, όμως, προηγούμενη εκπαίδευση με κείμενα. Εφάρμοσαν αυτό το βασικό νευρωνικό δίκτυο σε μια σειρά ειδικά σχεδιασμένα έργα, που στόχευαν να το διδάξουν πώς να διερμηνεύει μια φτιαχτή γλώσσα.

Αυτή η γλώσσα αποτελούνταν από λέξεις χωρίς νόημα για τον άνθρωπο, που αντιστοιχούνταν όμως με σύνολα από κουκκίδες διαφορετικών χρωμάτων. Μερικές από αυτές τις φτιαχτές λέξεις ήταν συμβολικοί όροι που αντιπροσώπευαν απευθείας κουκκίδες συγκεκριμένου χρώματος, ενώ άλλες υποδήλωναν λειτουργίες που άλλαζαν τη σειρά ή τον αριθμό των κουκκίδων. Για παράδειγμα η λέξη dax αντιπροσώπευε μια κόκκινη κουκκίδα, ενώ η λέξη fep ήταν μια λειτουργία που σε συνδυασμό με την dax, ή οποιαδήποτε άλλη συμβολική λέξη, πολλαπλασίαζε στο αποτέλεσμα την κουκκίδα τρεις φορές. Ετσι η φράση «dax fep» μεταφραζόταν σε τρεις κόκκινες κουκκίδες. Η εκπαίδευση της ΤΝ δεν περιλάμβανε καμία από αυτές τις πληροφορίες, καθώς οι ερευνητές τροφοδότησαν το μοντέλο μόνο με έναν μικρό αριθμό φράσεων φτιαχτού λόγου, μαζί με τις αντίστοιχες σε αυτές ομάδες κουκκίδων.

Στη συνέχεια, έδωσαν εντολή στο μοντέλο να παράγει τη δικιά του σειρά κουκκίδων ανταποκρινόμενο σε νέες φράσεις και βαθμολόγησαν την ΤΝ ανάλογα, με βάση το αν είχε ακολουθήσει σωστά τους υπονοούμενους κανόνες της φτιαχτής γλώσσας. Σύντομα το νευρωνικό δίκτυο μπορούσε να αποκρίνεται με συνέπεια, ακολουθώντας τη λογική της φτιαχτής γλώσσας, ακόμη κι όταν εισάγονταν νέες διατάξεις λέξεων. Εδειξε ότι μπορούσε να «κατανοήσει» τους φτιαχτούς κανόνες (όχι βέβαια με την ανθρώπινη έννοια της κατανόησης) και να τους εφαρμόσει σε φράσεις με τις οποίες δεν είχε εκπαιδευτεί καθόλου.

Οι ερευνητές δοκίμασαν το εκπαιδευμένο μοντέλο τους συγκρίνοντας τα αποτελέσματα που έδινε με τα αποτελέσματα που έδιναν 25 άνθρωποι συμμετέχοντες στη δοκιμή. Διαπίστωσαν ότι στην καλύτερη περίπτωση το βελτιστοποιημένο νευρωνικό τους δίκτυο απαντούσε 100% σωστά, ενώ οι άνθρωποι 81% σωστά. Οταν έδωσαν το GPT-4 το υλικό εκπαίδευσης και στη συνέχεια του έκαναν τις ερωτήσεις ελέγχου, το τεράστιο γλωσσικό μοντέλο απάντησε μόλις 58% σωστά. Με επιπλέον εκπαίδευση, το τυπικό μοντέλο μετασχηματισμού των ερευνητών άρχισε να μιμείται την ανθρώπινη συλλογιστική τόσο καλά, που άρχισε να κάνει παρόμοια λάθη. Για παράδειγμα, οι άνθρωποι συμμετέχοντες έκαναν συχνά το λάθος να υποθέτουν ότι υπήρχε αντιστοιχία ένα προς ένα ανάμεσα σε συγκεκριμένες λέξεις και κουκκίδες, παρότι πολλές από τις φράσεις δεν ακολουθούσαν αυτό το μοτίβο. Οταν το μοντέλο τροφοδοτήθηκε με παραδείγματα αυτής της συμπεριφοράς, γρήγορα άρχισε να τη μιμείται και έκανε το ίδιο λάθος με την ίδια συχνότητα που το έκαναν και οι άνθρωποι.

Επιστήμονες που δεν συμμετείχαν στην ερευνητική ομάδα επισήμαναν το γεγονός ότι το μοντέλο αυτό είναι πολύ μικρότερο συγκρινόμενο με τα μοντέλα GPT-3 και GPT-4 κι ωστόσο επιδεικνύει αυτή την ικανότητα γενικεύσεων. Ενας απ' αυτούς, ο A. Solar-Lezama λέει ότι το μοντέλο αυτό μπορεί θεωρητικά να ανοίξει δρόμο για αποτελεσματικότερη ΤΝ, σημειώνοντας ότι από τη στιγμή που «ταΐσεις» ένα μοντέλο με ολόκληρο το περιεχόμενο του διαδικτύου, δεν υπάρχει άλλο διαδίκτυο για να του δώσεις, ώστε να το κάνεις καλύτερο. Αναγνωρίζει ότι υπάρχουν ζητήματα που πρέπει να λυθούν ώστε το μοντέλο να κλιμακωθεί, αλλά θεωρεί ότι η μελέτη μικρότερων μοντέλων μπορεί να βοηθήσει στην κατανόηση του «μαύρου κουτιού» που αποτελούν σήμερα τα νευρωνικά δίκτυα και να εξηγήσει τις αναδυόμενες ικανότητες που εντοπίζονται στα μεγάλα συστήματα ΤΝ.

Παρ' όλα αυτά και αυτή η προσέγγιση στην ΤΝ παρουσιάζει αδυναμία χρήσης της ικανότητας γενίκευσης σε έναν τομέα (στη φτιαχτή γλώσσα στην περίπτωση αυτή) σε ευρύτερο πλαίσιο, όπως οι μεγάλες φράσεις με νέες άγνωστες λέξεις. Σίγουρα δεν είναι η αρχή της Γενικής Τεχνητής Νοημοσύνης την οποία επιδιώκουν ορισμένοι και έχει σκοπό την κατασκευή μηχανών ικανών να αποκτούν από μόνες τους νέες ικανότητες.

Επιμέλεια:
Σταύρος Ξενικουδάκης
Πηγές: «Scientific American», «The Conversation»