15/12/17

Η χρήση συστημάτων Αυτόματης Φωνητικής Αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα

Η χρήση συστημάτων Αυτόματης Φωνητικής Αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα

Γράφει o Φώτιος Πανταζόγλου
Γεωλόγος - Μηχανικός Συστημάτων Msc.

Με τον όρο Αυτόματη Φωνητική Αναγνώριση –Automatic Speech Recognition (ASR) εννοούμε την διαδικασία μετατροπής ενός ηχητικού σήματος φωνής σε μια διαδοχική σειρά λέξεων με την χρήση κάποιου υπολογιστικού αλγόριθμου (Anusuya & Katti, 2009). Αποτελεί πεδίο ενεργούς έρευνας για τα τελευταία 60 τουλάχιστον χρόνια και σαν κύριος στόχος της ερευνητικής κοινότητας παραμένει η βελτίωση της ακρίβειας της αυτόματης φωνητικής αναγνώρισης για διάφορα είδη προφορικού λόγου για διάφορα περιβάλλοντα και ομιλητές.
Ουσιαστικά με το ASR επιδιώκουμε η δια-δράση ανάμεσα σε άνθρωπο και μηχανή να είναι όσο το δυνατόν πιο ακριβής και εύχρηστη. Η έλλειψη ισχυρών υπολογιστικών συστημάτων δεν μας επέτρεπε να έχουμε την απαιτούμενη ακρίβεια στις διαδικασίες ASR ενώ ταυτόχρονα η απόδοση των μηχανών αυτών δεν μπορούσε να υπερνικήσει άλλα πιο κλασικά συστήματα δια δράσης μας με τις μηχανές , όπως το πληκτρολόγιο και το ποντίκι. Αυτό βέβαια έχει αλλάξει την τελευταία δεκαετία (Yu, 2014) καθώς οι εξελίξεις στο τομέα των επεξεργαστών υπολογιστικών συστημάτων μας έχει επιτρέψει να έχουμε υπολογιστικά συστήματα με πολλαπλούς πυρήνες επεξεργασίας ενώ ταυτόχρονα μπορούμε να διασυνδέσουμε μια σειρά υπολογιστικών συστημάτων ώστε να εκτελούν την ίδια εργασία αυξάνοντας την επεξεργαστική ισχύ του συστήματος μας. Έτσι η διαδικασία της «εκπαίδευσης» που πρέπει να κάνουμε ώστε να έχουμε ένα ακριβές μοντέλο ASR μπορεί να προχωρήσει πιο γρήγορα και πιο εύκολα αποδίδοντας μας ένα τελικό αποτέλεσμα που έχει μεγαλύτερη ακρίβεια κατά την διαδικασία της ASR.

Τα τελευταία χρόνια έχουμε μια σειρά εφαρμογών στις οποίες η τεχνολογίες λόγου παίζουν έναν σημαντικό λόγο. Αυτές μπορούν να διαχωριστούν σε αυτές που βελτιώνουν την επικοινωνία μεταξύ ανθρώπων και σε αυτές που βελτιώνουν την επικοινωνία μεταξύ ανθρώπου και μηχανής σε διάφορα περιβάλλοντα , μεταξύ των οποίων και τα στρατιωτικά.Oι εφαρμογές που προέρχονται από τις τεχνολογίες φωνής έχουν σημαντικά βελτιώσει την δια δράση μας με διάφορες μηχανικές κατασκευές. Οι πιο δημοφιλείς εφαρμογές αυτής της κατηγορίας συμπεριλαμβάνουν την φωνητική αναζήτηση, τον προσωπικό ψηφιακό βοηθό ,το gaming, τα συστήματα δια δράσης για το σπίτι, τα συστήματα πληροφορίας και διασκέδασης για τα αυτοκίνητα. Παράλληλα υπάρχει και έντονο ενδιαφέρον αλλά και εφαρμογές για την χρήση της τεχνολογίας αυτής, ώστε να βοηθηθούν άτομα με ειδικές ανάγκες στην καθημερινότητα τους.
Η φωνητική αναγνώριση και εντολές στην σημερινή εποχή έχουν ήδη εφαρμοστεί σε  μια σειρά περιβαλλόντων δράσης, στρατιωτικού χαρακτήρα (Skaff, 2010). Τα πλεονεκτήματα που αυτή προσφέρει έχουν ήδη αξιολογηθεί από οργανισμούς στρατιωτικού χαρακτήρα όπως το ΝΑΤΟ με αποτέλεσμα ήδη από την δεκαετία του 1970 να έχουν δημιουργηθεί ομάδες έρευνας και εργασίας (Pigeon, 2005) που μέχρι και σήμερα εργάζονται στο τομέα εφαρμογής της τεχνολογίας φωνητικής αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα.Δυστυχώς σε αυτή την προσπάθεια δεν υπάρχει Ελληνική συμμετοχή τουλάχιστον μέχρι σήμερα.

Προφανώς και οι εφαρμογές που δρομολογούνται σε στρατιωτικά περιβάλλοντα έχουν να αντιμετωπίσουν πολύ διαφορετικές προκλήσεις από τις αντίστοιχες εφαρμογές που χρησιμοποιούμε στην πολιτική μας ζωή. Για παράδειγμα, η αυτόματη φωνητική αναγνώριση που χρησιμοποιείται σε στρατιωτικά σενάρια πρέπει να είναι ανθεκτική στις δυσμενείς συνθήκες. Σύμφωνα λοιπόν με τον (Pigeon, 2005) οι στρατιωτικές εφαρμογές που κάνουν χρήση της συγκεκριμένης τεχνολογίας μπορούν να ενταχθούν στις παρακάτω κατηγορίες:

Διοίκηση και έλεγχος
Τα συστήματα ελέγχου και διοίκησης μπορούν να βοηθηθούν από την ανθρώπινη αλληλεπίδραση με τους υπολογιστές, τα όπλα και τα συστήματα αισθητήρων με φωνή.
Αυτό βέβαια προϋποθέτει πολύ υψηλά επίπεδα απόδοσης της τεχνολογίας φωνής και γλώσσας, υπό δυσμενείς συνθήκες, σε πραγματικό χρόνο, όπως κίνηση και θόρυβος και διάφορα φαινόμενα στρες λειτουργώντας με πολύγλωσση είσοδο και έξοδο. Στο περιβάλλον εργασίας για παράδειγμα ενός σύγχρονου ελικοπτέρου όπως το ΝΗ-90 ο χειριστής έχει σημαντικό και απαιτητικό φόρτο εργασίας κατά την διάρκεια της αποστολής του. Μέσα σε ένα περιβάλλον που χαρακτηρίζεται από υψηλό θόρυβο και κραδασμούς είναι επιφορτισμένος τόσο με την πτητική διαδικασία αυτή κάθε αυτή όσο και με την παρακολούθηση όλων των συστημάτων αισθητήρων που το ελικόπτερο διαθέτει. Μέσα σε αυτό το πλαίσιο λειτουργίας εταιρείες όπως η Thales Αvionics ήδη πειραματίζονται από την δεκαετία του 1990 σε συστήματα διαχείρισης τα οποία είναι βασισμένα στην δια δράση μεταξύ πιλότου και μηχανής. Έτσι ο πιλότος θα μπορεί να λαμβάνει πληροφορίες για την κατάσταση του πτητικού μέσου μιλώντας στην μηχανή, αφαιρώντας σημαντικό φόρτο εργασίας από πάνω του και επιτρέποντας του να επικεντρωθεί σε εργασίες που αυτός εκείνη την στιγμή επιθυμεί. (πχ. παρακολούθηση της υπέρυθρης κάμερας παρακολούθησης του αεροσκάφους). Επίσης ενδεικτικά μόνον μπορεί κανείς να αναφέρει την χρήση της παραπάνω τεχνολογίας στο Eurofighter Typhoon αλλά και στο νεότερο και τεχνολογικά πολύ εξελιγμένο F 35.(Skaff, 2010) Και στις δυο περιπτώσεις οι φωνητικές εντολές έρχονται να βοηθήσουν τον χειριστή να έχει πιο καλό και γρήγορο έλεγχο πάνω στο πτητικό του μέσο.

Επικοινωνίες
Οι επικοινωνίες πρέπει να λειτουργούν με ασφάλεια, με υψηλή ευκρίνεια, υπό συνθήκες θορύβου και εμπλοκής. Το σήμα ομιλίας, για παράδειγμα, πρέπει να κωδικοποιηθεί και να μεταδοθεί με αρκετή πίστη ώστε να γίνει κατανοητό από ακροατές που δεν είναι γνώστες της γλώσσας που μιλιέται.

Ηλεκτρονικοί υπολογιστές και πρόσβαση σε πληροφορίες
Την σημερινή εποχή οι υπολογιστές και η πρόσβαση στις πληροφορίες είναι ένα κρίσιμο κομμάτι των σύγχρονων στρατιωτικών επιχειρήσεων. Η τεχνολογία φωνητικής αναγνώρισης μπορεί να χρησιμοποιηθεί από το στρατιωτικό προσωπικό .ώστε αυτό να ελέγξει διερευνήσει υπολογιστές και πληροφορίες κάνοντας χρήση της φωνής. Μια πολύ χρήσιμη δυνατότητα ιδίως για προσωπικό που έχει απασχολημένα τα χέρια και μάτια  του την στιγμή που προσπαθεί να ανταπεξέλθει σε μεγάλο φόρτο εργασίας. Ταυτόχρονα η όλο και εξελισσόμενες νέες συμμαχίες θέτουν νέες απαιτήσεις σε θέματα πολύ επίπεδης ασφάλειας συστημάτων πληροφοριών καθώς η πρόσβαση στις διάφορες πληροφορίες πρέπει να περιοριστεί στα κατάλληλα επίπεδα. Έτσι οι απαιτήσεις σχετικά με την τεχνολογία φωνητικής αναγνώρισης, περιλαμβάνουν επαλήθευση ομιλητών, πιστοποίηση δεδομένων ήχου, πολύγλωσση εισαγωγή δεδομένων και δυνατότητα μετάφρασης ή σύνταξης των πληροφοριών από τη μία γλώσσα στην άλλη.

Συλλογή πληροφοριών
Η συλλογή πληροφοριών θέτει υψηλές απαιτήσεις στην επεξεργασία και τη διάδοση των πληροφοριών. Προκειμένου οι πληροφορίες να είναι χρήσιμες, πρέπει να είναι υψηλής
αξίας, ακριβείς και καταγεγραμμένες έγκαιρα. Η έκρηξη στην ανάπτυξη της τεχνολογίας των επικοινωνιών και του διαδικτύου μας έχει προσφέρει μια τεράστια πηγή με δεδομένα ήχου και κειμένου. Τα δεδομένα αυτά θα πρέπει να φιλτραριστούν γιατί ενδεχομένως να περιέχουν και πληροφορίες με υψηλή στρατηγική η στρατιωτική αξία. Η όλη διαδικασία λόγω του τεράστιου όγκου δεδομένων που υπάρχουν μπορεί να αποσυμφωρηθεί με την χρήση εφαρμογών που εμπεριέχουν την τεχνολογία της αυτόματης φωνητικής αναγνώρισης.

Εκπαίδευση δυνάμεων
Η εκπαίδευση δυνάμεων για στρατιωτικές επιχειρήσεις μπορεί να βοηθηθεί σημαντικά εφαρμόζοντας την τεχνολογία ομιλίας ώστε να επιτρέψει στους ανθρώπους να αλληλοεπιδρούν με προηγμένα συστήματα προσομοίωσης κάνοντας χρήση φωνητικών εντολών. Επιπλέον, για τις πολυεθνικές επιχειρήσεις, είναι απαραίτητη η εκπαίδευση σε ξένες γλώσσες. Η εκπαίδευση αυτή μπορεί να υποστηριχθεί με τη χρήση τεχνολογιών ομιλίας και γλώσσας για την παροχή μάθησης ξένων γλωσσών με τη βοήθεια υπολογιστή προς το στρατιωτικό προσωπικό που συμμετάσχει στις πολυεθνικές επιχειρήσεις.

Πολυεθνικές δυνάμεις
Οι επιχειρήσεις πολυεθνικών δυνάμεων απαιτούν το συντονισμό δυνάμεων που μιλούν διαφορετικές γλώσσες .Εδώ, η κατανόηση του λόγου και της γλώσσας καθώς και οι τεχνολογίες μετάφρασης μπορούν να βελτιώσουν την αποδοτικότητα και την επιτυχία των επιχειρήσεων. Βέβαια οι απαιτήσεις που τίθενται είναι υψηλές. Έτσι οι εφαρμογές θα πρέπει να επικεντρωθούν σε συγκεκριμένους τομείς για μετάφραση και ανταλλαγή πληροφοριών μεταξύ πολυεθνικών δυνάμεων υιοθετώντας συγκεκριμένη φρασεολογία και ορολογία.

Γίνεται εμφανές ότι το όλο και εξελισσόμενο στρατιωτικό περιβάλλον απαιτεί πλέον να
έχουμε στην διάθεση μας νέα εργαλεία ώστε να αυξήσουμε την αποδοτικότητα μας κατά την διενέργεια των επιχειρήσεων. Σαν ένα τέτοιο μπορεί να θεωρηθεί το επιστημονικό αποτέλεσμα που προέκυψε από την εργασία «Υλοποίηση συστήματος αναγνώρισης φωνητικών εντολών στην Ελληνική γλώσσα» που διενεργήθηκε στα πλαίσια του δια τμηματικού μεταπτυχιακού προγράμματος σπουδών «Σχεδίαση και Επεξεργασία Συστημάτων (Systems Engineering)» και είναι ελεύθερα διαθέσιμο στο διεθνές αποθετήριο του προγράμματος CMU Sphinx (https://goo.gl/9v3QqG) αλλά και της ΣΣΕ ( https:/gitlab.sse.gr/fpantazoglou/omilia )

Το Ελληνικού μοντέλο αυτόματης φωνητικής αναγνώρισης, μπορεί να ενταχθεί σε οποιαδήποτε από τις παραπάνω προσπάθειες για ανάπτυξη εφαρμογής, βοηθώντας σημαντικά την προσπάθεια των Ελληνικών Ενόπλων Δυνάμεων για συνεχή βελτίωση των επιχειρησιακών τους δυνατοτήτων.

Βιβλιογραφία

Anusuya, M., & Katti, S. (2009). Speech recognition by machine: A review. International
Journal of Computer Science and Information Security, 6(3), 181–205.
https://doi.org/10.1109/PROC.1976.10158
Pantazoglou, F. K., Papadakis, N. K., & Kladis, G. P. (2017). Implementation of the generic Greek Model for CMU Sphinx speech recognition toolkit. In eRA-12 International Scientific Conference.
Pigeon, S. (2005). Use of Speech and Language Technology in Military Environments. Technology
(Vol. 323).
Skaff, M. (2010). F-35 Lightning II Cockpit Vision. SAE Int. J. Passeng. Cars – Electron.
Electr. Syst., 3(2), 131–140. https://doi.org/10.4271/2010-01-2330
Yu, D. (2014). Automatic Speech Recognition: A Deep Learning Approach. Springer.
https://doi.org/10.1109/9780470546475

Λίγα λόγια για τον Συγγραφέα:

Ο κ. Φώτης Πανταζόγλου είναι ειδικός τεχνικός επιστήμονας με μάστερ στην Μηχανική Συστημάτων. Έχει 25ητη εμπειρία σε θέματα θαλάσσιας τεχνολογίας, νέων τεχνολογιών και έχει συμμετάσχει σε σειρά ερευνητικών αποστολών σε διάφορες θαλάσσιες περιοχές όπως ο Ατλαντικός Ωκεανός και η Ερυθρά θάλασσα. Κύρια ερευνητικά του ενδιαφέροντα είναι η αυτόματη φωνητική αναγνώριση, η συνεργασία ανθρώπου-μηχανής, τα αυτόνομα υποβρύχια οχήματα και ο προγραμματισμός.

1 σχόλιο:

Ανώνυμος είπε...

Μια προσέγγιση που δεν ήταν γνωστή μέχρι τώρα!