Σύστημα τεχνητής νοημοσύνης της Google κατάφερε να παίξει Stratego σε κορυφαίο επίπεδο

Η τεχνητή νοημοσύνη «κατέκτησε» ακόμα ένα παιχνίδι, το Stratego, που αποτελεί ένα από τα ελάχιστα επιτραπέζια παιχνίδια που δεν είχε καταφέρει να παίξει, ανεβαίνοντας άλλο ένα… «ανθρώπινο» σκαλοπάτι. Το επίτευγμα αυτό, το κατάφεραν οι ερευνητές της θυγατρικής της Google, Deep Mind, με το σύστημα DeepNash.

Το σύστημα τεχνητής νοημοσύνης DeepNash έμαθε να παίζει -και μάλιστα σε υψηλό επίπεδο- ένα από τα δημοφιλέστερα επιτραπέζια παιχνίδια, το Stratego, παρά το γεγονός ότι αποτελεί παιχνίδια «ατελούς» πληροφόρησης, με όψεις που μένουν κρυφές από τους αντιπάλους.

Οι κρυφές όψεις και οι πτυχές του επιτραπέζιου παιχνιδιού αποτελούσαν ήδη πρόκληση για τους ανθρώπους που το παίζουν αφού δοκιμάζουν την ικανότητά τους στη λήψη σχετικά αργών αλλά πολύ μελετημένων λογικών αποφάσεων.

Αυτά τα στοιχεία του Stratego, όμως, αποτελούσαν και στόχο-όριο για την έρευνα στο πεδίο της τεχνητής νοημοσύνης, με τους ερευνητές της DeepMind να αναφέρουν στη σχετική δημοσίευση στο κορυφαίο επιστημονικό περιοδικό «Science» ότι πέτυχαν «ένα εντυπωσιακό επίτευγμα που η κοινότητα του Stratego δεν πίστευε πως θα ήταν εφικτό με τις υπάρχουσες τεχνικές».

Καθώς αποτελεί ένα παιχνίδι, το Stratego με την πολύπλοκη δομή του ενέχει σημαντικές προκλήσεις για τους ερευνητές της τεχνητής νοημοσύνης, σαφώς περισσότερες από ένα άλλο παιχνίδι ατελούς πληροφόρησης, το πόκερ Texas Hold’em, όπου η τεχνητή νοημοσύνη είχε ήδη επιτυχίες.

Παρόλα αυτά, οι μηχανικοί και ειδικοί πληροφορικής της Deep Mind εισήγαγαν μια καινοτόμο μέθοδο που επιτρέπει στο σύστημα τεχνητής νοημοσύνης τους να μάθει να παίζει Stratego και μάλιστα σε υψηλό επίπεδο.

Όπως έδειξαν οι δοκιμές του στη διαδικτυακή πλατφόρμα gaming Gravon (τη μεγαλύτερη στον κόσμο online για Stratego), το bot DeepNash επιτυγχάνει αποτελέσματα ανάλογα των πολύ καλών ανθρώπων παικτών.

Το DeepNash κέρδισε οποιοδήποτε άλλο bot που παίζει Stratego, καθώς και πολλούς ανθρώπους εξπέρ του παιχνιδιού. Στον πυρήνα του συστήματος βρίσκεται ένας νέος αλγόριθμος ενισχυτικής μάθησης, ο R-NaD, ο οποίος συνδυάζεται με αρχιτεκτονική βαθιού νευρωνικού δικτύου.

Πηγή: ΑΠΕ – ΜΠΕ