
Aυτή την άνοιξη, ο Clive Kabatznik, επενδυτής στη Φλόριντα, κάλεσε τον τοπικό του εκπρόσωπο της Bank of America για να συζητήσει μια μεγάλη μεταφορά χρημάτων που σχεδίαζε να κάνει. Μετά ξανακάλεσε.
Μόνο που το δεύτερο τηλεφώνημα δεν ήταν από τον Kabatznik. Αντίθετα, ένα πρόγραμμα λογισμικού είχε δημιουργήσει τεχνητά τη φωνή του και προσπάθησε να ξεγελάσει τον τραπεζίτη για να μεταφέρει τα χρήματα αλλού.
Ο Kabatznik και ο τραπεζίτης του ήταν στόχος μιας απόπειρας απάτης που έχει τραβήξει την προσοχή των ειδικών στον κυβερνοχώρο: η χρήση τεχνητής νοημοσύνης για τη δημιουργία ψεύτικων φωνών κι εκφράσεων που μιμούνται τις φωνές πραγματικών ανθρώπων.
Το πρόβλημα είναι ακόμα αρκετά νέο και δεν υπάρχει πλήρης καταγραφή του πόσο συχνά συμβαίνει. Ωστόσο, ένας ειδικός του οποίου η εταιρεία, η Pindrop, παρακολουθεί την κυκλοφορία ήχου για πολλές από τις μεγαλύτερες τράπεζες των ΗΠΑ, είπε ότι είχε δει άλμα στην επικράτηση του φέτος – και στην πολυπλοκότητα των προσπαθειών φωνητικής απάτης των απατεώνων. Ένας άλλος μεγάλος προμηθευτής φωνητικού ελέγχου ταυτότητας, η Nuance, είδε την πρώτη επιτυχημένη επίθεση deepfake σε πελάτη χρηματοοικονομικών υπηρεσιών στα τέλη του περασμένου έτους.
Στην περίπτωση του Kabatznik, η απάτη ήταν ανιχνεύσιμη. Όμως, η ταχύτητα της τεχνολογικής ανάπτυξης, το μειωμένο κόστος των προγραμμάτων παραγωγής τεχνητής νοημοσύνης και η ευρεία διαθεσιμότητα εγγραφών φωνών ανθρώπων στο διαδίκτυο έχουν δημιουργήσει τις ιδανικές συνθήκες για απάτες τεχνητής νοημοσύνης που σχετίζονται με τη φωνή.
Δεδομένα πελατών, όπως στοιχεία τραπεζικού λογαριασμού που έχουν κλαπεί από χάκερ – και είναι ευρέως διαθέσιμα σε υπόγειες αγορές – βοηθούν τους απατεώνες να αποσπάσουν χρήματα σε αυτές τις επιθέσεις. Γίνονται ακόμα πιο εύκολα με τους πλούσιους πελάτες, των οποίων οι δημόσιες εμφανίσεις, συμπεριλαμβανομένων των ομιλιών, είναι συχνά ευρέως διαθέσιμες στο διαδίκτυο.
Η εύρεση δειγμάτων ήχου για καθημερινούς πελάτες μπορεί επίσης να είναι τόσο εύκολη όσο η διεξαγωγή μιας διαδικτυακής αναζήτησης – ας πούμε, σε εφαρμογές κοινωνικών μέσων όπως το TikTok και το Instagram – για το όνομα κάποιου του οποίου τα στοιχεία τραπεζικού λογαριασμού έχουν ήδη οι απατεώνες.
«Υπάρχει πολύ ηχητικό περιεχόμενο εκεί έξω», δήλωσε ο Vijay Balasubramaniyan, Διευθύνων Σύμβουλος και ιδρυτής της Pindrop, η οποία εξετάζει συστήματα αυτόματης επαλήθευσης φωνής για οκτώ από τους 10 μεγαλύτερους δανειστές των ΗΠΑ.
Την τελευταία δεκαετία, η Pindrop έχει εξετάσει τις ηχογραφήσεις περισσότερων από 5 δισεκατομμυρίων κλήσεων που έρχονται σε τηλεφωνικά κέντρα που διαχειρίζονται οι χρηματοοικονομικές εταιρείες που εξυπηρετεί. Τα κέντρα διαχειρίζονται προϊόντα όπως τραπεζικούς λογαριασμούς, πιστωτικές κάρτες και άλλες υπηρεσίες που προσφέρονται από μεγάλες τράπεζες λιανικής. Όλα τα τηλεφωνικά κέντρα λαμβάνουν κλήσεις από απατεώνες, που συνήθως κυμαίνονται από 1.000 έως 10.000 ετησίως. Είναι σύνηθες να έρχονται 20 κλήσεις από απατεώνες κάθε εβδομάδα, είπε ο Balasubramaniyan.
Μέχρι στιγμής, οι ψεύτικες φωνές που δημιουργούνται από προγράμματα ηλεκτρονικών υπολογιστών αντιπροσωπεύουν μόνο «μια χούφτα» από αυτές τις κλήσεις, είπε – και άρχισαν να συμβαίνουν μόνο τον περασμένο χρόνο.
Οι περισσότερες από τις ψεύτικες φωνητικές επιθέσεις που έχει δει η Pindrop έχουν έρθει σε τηλεφωνικά κέντρα εξυπηρέτησης πιστωτικών καρτών, όπου οι ανθρώπινοι εκπρόσωποι ασχολούνται με πελάτες που χρειάζονται βοήθεια με τις κάρτες τους.
Ο Balasubramaniyan έπαιξε σε έναν ρεπόρτερ μια ανώνυμη ηχογράφηση μιας τέτοιας κλήσης που έλαβε χώρα τον Μάρτιο. Αν και ένα πολύ στοιχειώδες παράδειγμα – η φωνή σε αυτή την περίπτωση ακούγεται ρομποτική, περισσότερο σαν ηλεκτρονικός αναγνώστης παρά σαν άτομο – η κλήση δείχνει πώς θα μπορούσαν να συμβούν απάτες καθώς η τεχνητή νοημοσύνη διευκολύνει τη μίμηση ανθρώπινων φωνών.
Ακούγεται ένας τραπεζίτης να χαιρετά τον πελάτη. Στη συνέχεια, η φωνή, παρόμοια με μια αυτοματοποιημένη, λέει: «Η κάρτα μου απορρίφθηκε».
«Μπορώ να ρωτήσω με ποιον έχω τη χαρά να μιλήσω;» απαντά ο τραπεζίτης.
«Η κάρτα μου απορρίφθηκε», λέει ξανά η φωνή.
Ο τραπεζίτης ζητάει ξανά το όνομα του πελάτη. Ακολουθεί μια σιωπή, κατά την οποία ακούγεται ο αχνός ήχος των πλήκτρων. Σύμφωνα με τον Balasubramaniyan, ο αριθμός των πλήκτρων αντιστοιχεί στον αριθμό των γραμμάτων στο όνομα του πελάτη. Ο απατεώνας πληκτρολογεί λέξεις σε ένα πρόγραμμα που στη συνέχεια τις διαβάζει.
Σε αυτήν την περίπτωση, η συνθετική ομιλία του καλούντος οδήγησε τον υπάλληλο να μεταφέρει την κλήση σε διαφορετικό τμήμα και να την επισημάνει ως δυνητικά δόλια, είπε ο Balasubramaniyan.
Κλήσεις όπως αυτή που μοιράστηκε, οι οποίες χρησιμοποιούν τεχνολογία πληκτρολόγηση κειμένου, είναι μερικές από τις πιο εύκολες επιθέσεις για άμυνα: Τα τηλεφωνικά κέντρα μπορούν να χρησιμοποιήσουν λογισμικό ελέγχου για να λάβουν τεχνικές ενδείξεις ότι η ομιλία δημιουργείται από μηχανή.
«Η συνθετική ομιλία αφήνει τεχνουργήματα πίσω και πολλοί αλγόριθμοι κατά της πλαστογράφησης βασίζονται σε αυτά τα τεχνουργήματα», δήλωσε ο Peter Soufleris, Διευθύνων Σύμβουλος της IngenID, ενός προμηθευτή τεχνολογίας βιομετρικών φωνητικών στοιχείων.
Όμως, όπως συμβαίνει με πολλά μέτρα ασφαλείας, είναι ένας αγώνας εξοπλισμών μεταξύ επιτιθέμενων και υπερασπιστών – και αυτός που εξελίχθηκε πρόσφατα. Ένας απατεώνας μπορεί τώρα απλώς να μιλήσει σε ένα μικρόφωνο ή να πληκτρολογήσει μια προτροπή και να μεταφραστεί αυτή η ομιλία πολύ γρήγορα στη φωνή του στόχου.
Ο Balasubramaniyan σημείωσε ότι ένα σύστημα παραγωγής τεχνητής νοημοσύνης, το VALL-E της Microsoft, θα μπορούσε να δημιουργήσει ένα φωνητικό deepfake που θα έλεγε ό,τι επιθυμούσε ένας χρήστης χρησιμοποιώντας μόλις τρία δευτερόλεπτα δείγματος ήχου.
Στο «60 Minutes» τον Μάιο, η Rachel Tobac, σύμβουλος ασφαλείας, χρησιμοποίησε λογισμικό για να κλωνοποιήσει τόσο πειστικά τη φωνή της Sharyn Alfonsi, μιας από τις ανταποκρίτριες του προγράμματος, που ξεγέλασε έναν υπάλληλο του «60 Minutes» να της δώσει τον αριθμό διαβατηρίου του Alfonsi.
Η επίθεση χρειάστηκε μόνο πέντε λεπτά για να ολοκληρωθεί, είπε η Tobac, Διευθύνων Σύμβουλος της SocialProof Security. Το εργαλείο που χρησιμοποίησε έγινε διαθέσιμο για αγορά τον Ιανουάριο.
Ενώ οι τρομακτικές επιδείξεις deepfake αποτελούν βασικό στοιχείο των συνεδρίων ασφαλείας, οι πραγματικές επιθέσεις εξακολουθούν να είναι εξαιρετικά σπάνιες, δήλωσε ο Brett Beranek, γενικός διευθυντής ασφάλειας και βιομετρίας στη Nuance, έναν προμηθευτή τεχνολογίας φωνής που απέκτησε η Microsoft το 2021. Η μόνη επιτυχημένη παραβίαση ενός πελάτη της Nuance, τον Οκτώβριο, ο εισβολέας χρειάστηκε περισσότερες από δώδεκα προσπάθειες να απομακρυνθεί.
Η μεγαλύτερη ανησυχία του Beranek δεν είναι οι επιθέσεις σε τηλεφωνικά κέντρα ή αυτοματοποιημένα συστήματα, όπως τα βιομετρικά συστήματα φωνής που έχουν αναπτύξει πολλές τράπεζες. Ανησυχεί για τις απάτες στις οποίες ένας καλών επικοινωνεί απευθείας με ένα άτομο.
«Είχα μια συζήτηση μόλις νωρίτερα αυτή την εβδομάδα με έναν από τους πελάτες μας», είπε. «Έλεγαν, γεια, Μπρετ, είναι υπέροχο που έχουμε το κέντρο επαφής μας ασφαλές – αλλά τι γίνεται αν κάποιος απλά τηλεφωνήσει στον Διευθύνοντα Σύμβουλό μας απευθείας στο κινητό του και προσποιηθεί ότι είναι κάποιος άλλος;»
Αυτό συνέβη στην περίπτωση του Kabatznik. Σύμφωνα με την περιγραφή του τραπεζίτη, φαινόταν να προσπαθούσε να τον κάνει να μεταφέρει χρήματα σε μια νέα τοποθεσία, αλλά η φωνή ήταν επαναλαμβανόμενη, μιλούσε από πάνω της και χρησιμοποιούσε μπερδεμένες φράσεις. Ο τραπεζίτης έκλεισε το τηλέφωνο.
Μετά από δύο ακόμη τέτοιες κλήσεις που έγιναν γρήγορα διαδοχικά, ο τραπεζίτης ανέφερε το θέμα στην ομάδα ασφαλείας της Bank of America, είπε ο Kabatznik. Ανησυχώντας για την ασφάλεια του λογαριασμού του, ο Kabatznik σταμάτησε να ανταποκρίνεται στις κλήσεις και τα email του.
Αν και οι επιθέσεις γίνονται πιο περίπλοκες, προέρχονται από μια βασική απειλή για την ασφάλεια στον κυβερνοχώρο που υπάρχει εδώ και δεκαετίες: μια παραβίαση δεδομένων που αποκαλύπτει τα προσωπικά στοιχεία των πελατών της τράπεζας. Από το 2020 έως το 2022, κομμάτια προσωπικών δεδομένων περισσότερων από 300 εκατομμυρίων ανθρώπων έπεσαν στα χέρια χάκερ, οδηγώντας σε απώλειες 8,8 δισεκατομμυρίων δολαρίων, σύμφωνα με την Ομοσπονδιακή Επιτροπή Εμπορίου.
Μόλις συλλέξουν μια παρτίδα αριθμών, οι χάκερ εξετάζουν τις πληροφορίες και τις ταιριάζουν με πραγματικούς ανθρώπους. Αυτοί που κλέβουν τις πληροφορίες δεν είναι σχεδόν ποτέ οι ίδιοι άνθρωποι που καταλήγουν σε αυτές. Αντίθετα, οι κλέφτες τις έβγαλαν προς πώληση. Οι ειδικοί μπορούν να χρησιμοποιήσουν εύκολα προσβάσιμα προγράμματα για να παραπλανήσουν τους αριθμούς τηλεφώνου στοχευόμενων πελατών – κάτι που πιθανότατα συνέβη στην περίπτωση του Kabatznik.
Ηχογραφήσεις της φωνής του είναι εύκολο να βρεθούν. Στο διαδίκτυο κυκλοφορούν βίντεο με τον ίδιο να μιλά σε συνέδριο και να συμμετέχει σε έρανο.
«Νομίζω ότι είναι πολύ τρομακτικό», είπε ο Kabatznik. «Το πρόβλημα είναι ότι δεν ξέρω τι κάνετε για αυτό. Πηγαίνεις στην υπόγεια και εξαφανίζεσαι;»
με πληροφορίες από ΝΥΤ