Το Facebook AI γίνεται καλύτερο στην περιγραφή φωτογραφιών για χρήστες με προβλήματα όρασης

|
THESTIVAL TEAM

Σε μια προσπάθεια καλύτερης προσαρμογής των χρηστών που είναι τυφλοί ή άτομα με προβλήματα όρασης, το Facebook ενημέρωσε αυτήν την εβδομάδα την τεχνολογία τεχνολογία automatic alternative text (AAT).

Το χαρακτηριστικό, που παρουσιάστηκε το 2016 (και κέρδισε το βραβείο Helen Keller Achievement από το American Foundation for the Blind το 2018), βασίζεται στην αναγνώριση αντικειμένων για τη δημιουργία περιγραφών φωτογραφιών κατά παραγγελία.

Οι χρήστες με προβλήματα όρασης βασίζονται εδώ και πολύ καιρό σε άτομα για να προσθέσουν κείμενο σε εικόνες ή σε screen readers για να περιγράψουν μηχανικά τις εικόνες στο News Feed. Η επόμενη γενιά του AAT του Facebook, καθιστά την περιήγηση στα μέσα κοινωνικής δικτύωσης πολύ πιο ευχάριστη.

«Η τελευταία ενημέρωση… αντιπροσωπεύει πολλές τεχνολογικές εξελίξεις που βελτιώνουν την εμπειρία φωτογραφίας για τους χρήστες μας», σύμφωνα με μια δημοσίευση στο Facebook AI blog. Η ομάδα επέκτεινε στο δεκαπλάσιο τον αριθμό των εννοιών που μπορεί να ανιχνεύσει και να αναγνωρίσει αξιόπιστα η AAT, υπόσχεται περισσότερες φωτογραφίες με πιο λεπτομερείς περιγραφές, συμπεριλαμβανομένων δραστηριοτήτων, αξιοθέατων, τύπων ζώων και πολλά άλλα.

Αν κάποιος περιηγηθεί στο news feed του, για παράδειγμα, σταματήσει σε μια φωτογραφία φίλων που ποζάρουν μπροστά από ένα διάσημο ιταλικό τουριστικό αξιοθέατο, η λεζάντα ήχου μπορεί να λέει κάτι σαν “Μπορεί να είναι μια selfie δύο ατόμων, σε εξωτερικούς χώρους, ο Πύργος της Πίζας.”
Το Facebook καθιστά ακόμη δυνατή τη συμπερίληψη λεπτομερειών της θέσης και του σχετικού μεγέθους των στοιχείων σε μια εικόνα. Έτσι, αντί να περιγράφει το περιεχόμενο ως “Μπορεί να είναι μια εικόνα πέντε ατόμων”, ο ιστότοπος μπορεί να καθορίσει ότι υπάρχουν δύο άτομα στο κέντρο και τρία στο πλάι. Ή, αντί να περιγράφει ένα τοπίο με το “Μπορεί να είναι ένα σπίτι και ένα βουνό”, μπορεί να καθορίσει ότι η κορυφή είναι το κύριο αντικείμενο με βάση το συγκρίσιμο μέγεθός της.

“Συνολικά, αυτές οι εξελίξεις βοηθούν τους χρήστες που είναι τυφλοί ή άτομα με προβλήματα όρασης να κατανοήσουν καλύτερα τι υπάρχει στις φωτογραφίες που δημοσιεύονται από την οικογένεια και τους φίλους τους – και στις δικές τους φωτογραφίες – παρέχοντας περισσότερες (και πιο λεπτομερείς) πληροφορίες”, ανέφερε το blog.

Όταν ξεκίνησε πριν από σχεδόν πέντε χρόνια, η πρώτη έκδοση του AAT χρησιμοποίησε δεδομένα ανθρώπινης σήμανσης για να εκπαιδεύσει ένα νευρωνικό δίκτυο. Το ολοκληρωμένο μοντέλο θα μπορούσε να αναγνωρίσει 100 κοινές έννοιες όπως “δέντρο”, “βουνό” και “εξωτερικός χώρος” και να αναγνωρίσει πρόσωπα (με τη συγκατάθεση τους). “Αλλά ξέραμε ότι θα μπορούσε να κάνει περισσότερα το AAT”, είπε το Facebook, “και το επόμενο λογικό βήμα ήταν να επεκταθεί ο αριθμός των αναγνωρίσιμων αντικειμένων και πώς τα περιγράφουμε.”

Τώρα εκπαιδευμένο σε ασθενώς εποπτευόμενα δεδομένα με τη μορφή δισεκατομμυρίων δημόσιων εικόνων Instagram και των hashtag τους, το AAT είναι πιο ακριβές και πολιτισμικά και δημογραφικά περιεκτικό, ικανό να αντιληφθεί περισσότερες από 1.200 έννοιες. “Θέλουμε να δώσουμε στους χρήστες μας που είναι τυφλοί ή άτομα με προβλήματα όρασης όσο το δυνατόν περισσότερες πληροφορίες σχετικά με το περιεχόμενο μιας φωτογραφίας – αλλά μόνο σωστές πληροφορίες”, πρόσθεσε η εταιρεία.

Το Instagram το 2018 έκανε βήματα για να γίνει πιο προσβάσιμο, αγκαλιάζοντας την τεχνολογία αναγνώρισης αντικειμένων που αναγνωρίζει αυτόματα στοιχεία σε μια φωτογραφία και δημιουργεί μια ακουστική περιγραφή. Οι χρήστες ενθαρρύνονται επίσης να γράψουν έως και 100 χαρακτήρες κειμένου, αναφέροντας λεπτομερώς τι υπάρχει στις εικόνες τους.

Πηγή: gr.pcmag.com