Μην πιστεύετε στα μάτια σας!
Τα δίκτυα ψηφιακής ανάλυσης αποτελούνται από διασυνδεδεμένους υπολογιστές διατεταγμένους σε σύστημα που προσομοιάζει στη δομή του ανθρώπινου εγκεφάλου. Η «Google», το «Facebook» και άλλα μονοπώλια χρησιμοποιούν τέτοιες διατάξεις εδώ και χρόνια, ώστε το λογισμικό τους να μπορεί να αναγνωρίζει πρόσωπα σε φωτογραφίες. Μια νεότερη προσέγγιση περιλαμβάνει τα αποκαλούμενα γενετικά δίκτυα αντιφάσεων ή GAN (Generative Adversarial Network), που αποτελούνται από ένα δίκτυο - «γεννήτρια» που δημιουργεί εικόνες και ένα δίκτυο «διευκρινιστή» που αξιολογεί την αυθεντικότητά τους.
Πεινασμένα δίκτυα
«Τα νευρωνικά
δίκτυα είναι πεινασμένα για εκατομμύρια εικόνες - παραδείγματα, από τις
οποίες θα μάθουν. Τα GAN είναι ένας σχετικά νέος τρόπος για να
δημιουργούνται αυτόματα τέτοια παραδείγματα», λέει ο Ορεν Ετζιόνι,
επικεφαλής του Ινστιτούτου Αλεν για την Τεχνητή Νοημοσύνη, με έδρα το
Σιάτλ των ΗΠΑ. Ωστόσο, τα GAN μπορούν να επιτρέψουν στην ΤΝ να παράγει
ρεαλιστικές ψεύτικες εικόνες. Το δίκτυο «γεννήτρια» χρησιμοποιεί
μηχανική μάθηση για να μελετήσει τεράστιους αριθμούς εικόνων,
μαθαίνοντας στην ουσία πώς να φτιάχνει μόνο του εξαιρετικά φυσικές και
πειστικές παρόμοιες εικόνες. Αυτές τις στέλνει στο δίκτυο
«διευκρινιστή», που έχει εκπαιδευτεί ώστε να εκτιμά αν μια εικόνα
ανθρώπου φαίνεται αληθινή. Στο πέρασμα του χρόνου το δίκτυο «γεννήτρια»
γίνεται πιο αποτελεσματικό στην παραγωγή ψευδών εικόνων και το δίκτυο
«διευκρινιστής» στον εντοπισμό τους (εξού και το «αντιφάσεων» στην
ονομασία των GAN).Η ανάπτυξη τέτοιων μη εποπτευόμενων συστημάτων δεν είναι εύκολη υπόθεση. Τα GAN μερικές φορές σταματούν να βελτιώνονται. Αν η «γεννήτρια» πάψει να μπορεί να παράγει όλο και πιο ρεαλιστικές εικόνες, τότε και ο «διευκρινιστής» παύει να βελτιώνεται επίσης. Το μονοπώλιο «Nvidia», ένας από τους μεγαλύτερους κατασκευαστές καρτών γραφικών για υπολογιστές (οι κάρτες γραφικών χρησιμοποιούνται στην ΤΝ για γρήγορη παράλληλη επεξεργασία), ανέπτυξε έναν τρόπο εκπαίδευσης των δικτύων αντιφάσεων, που βοηθάει στην αποφυγή του αδιέξοδου στην εξέλιξη των GAN. Το κλειδί βρίσκεται στην εκπαίδευση και της «γεννήτριας» και του «διευκρινιστή» σταδιακά, τροφοδοτώντας τους με εικόνες χαμηλής ανάλυσης και μετά προσθέτοντας νέα στρώματα εικονοστοιχείων (pixel) που εισάγουν υψηλότερης ανάλυσης λεπτομέρειες, καθώς προχωρά η εκπαίδευση. Επιπλέον, αυτή η τακτική προοδευτικής μηχανικής μάθησης μειώνει το χρόνο εκπαίδευσης των δικτύων στο μισό. Σαν απόδειξη της μεθοδολογίας, η εταιρεία έκανε επίδειξή της χρησιμοποιώντας 200.000 φωτογραφίες διασημοτήτων για να εκπαιδεύσει τα GAN της, τα οποία παρήγαγαν ρεαλιστικές υψηλής ανάλυσης εικόνες προσώπων ανύπαρκτων ανθρώπων.
Στοχεύσεις
Σε
αντίθεση με τον άνθρωπο, που έχει εκ γενετής στον εγκέφαλό του την
υποδομή για την ανάπτυξη νευρωνικών δικτύων, τα οποία του επιτρέπουν
καθώς αναπτύσσεται να αναγνωρίζει και να ερμηνεύει σχεδόν ακαριαία τις
εκφράσεις προσώπου, οι μηχανές δεν γνωρίζουν πότε ένα πρόσωπο είναι
ρεαλιστικό. Το «Facebook» θεωρεί τα GAN ένα μέσο για να προβλέπει
καλύτερα τι ενδιαφέρει τους χρήστες του, στηριζόμενο στο προφίλ που έχει
δημιουργήσει γι' αυτούς από την προηγούμενη συμπεριφορά τους. Τελικά,
επιδιώκει να κατασκευάσει ΤΝ που να εμφανίζει κοινή λογική. Ο επικεφαλής
έρευνας για την ΤΝ της εταιρείας, Γιαν ΛεΚούν και ο ερευνητής μηχανικός
Σουμίθ Τσιντάλα περιγράφουν το ιδανικό σύστημα ως «ικανό όχι μόνο να
αναγνωρίζει κείμενο και εικόνα, αλλά και για υψηλότερου επιπέδου
λειτουργίες, όπως η συλλογιστική, η πρόβλεψη και ο σχεδιασμός,
ανταγωνιζόμενο τον τρόπο που σκέφτονται και φέρονται οι άνθρωποι».
Δείχνοντας την πρόοδο (ή ένα μέρος της) που έχουν πετύχει, τροφοδότησαν
το σύστημά τους με τέσσερα διαδοχικά καρέ βίντεο και αυτό παρήγαγε τα
δύο επόμενα, σε μια συνθετική συνέχιση της δράσης, είτε επρόκειτο για
έναν άνθρωπο που περπατάει, ή έναν που κάνει κινήσεις με το κεφάλι του.Οι υψηλού ρεαλισμού εικόνες και βίντεο αρχίζουν να βρίσκουν εφαρμογή όχι μόνο στα ηλεκτρονικά παιχνίδια βίντεο, αλλά και στον κινηματογράφο, μειώνοντας το κόστος παραγωγής σε αυτό που στον καπιταλισμό ονομάζεται βιομηχανία του θεάματος. Στο εξής, το ίδιο φιλτράρισμα που πρέπει να κάνει κανείς στις ειδήσεις και τις πληροφορίες που διαβάζει στο διαδίκτυο, η ίδια αξιολόγηση των πηγών και του συνολικού πλαισίου διάδοσης αυτών των πληροφοριών, θα πρέπει να γίνεται και για ό,τι βλέπει σε μορφή εικόνας, αλλά και βίντεο.
Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγή: «Scientific American»
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγή: «Scientific American»
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου