Craig Walker
Gaan we terug naar een wereld waarin de stem het voor het zeggen heeft?
Na het succes van persoonlijke assistenten en slimme speakers op de consumentenmarkt, is het een kwestie van tijd vooraleer spraakherkenningssystemen ook in het bedrijfsleven worden toegepast. “Maar die overstap gaat niet over één nacht ijs”, schrijft Craig Walker. Hij bespreekt de uitdagingen op vlak van beveiliging, privacy en standaardisering.
Met de golf van persoonlijke assistenten, zoals Siri, Cortana en Google Assistant, en nieuwe start-ups die gebruik maken van AI en analytics om gezelschapsrobots te bouwen, wordt het duidelijk dat we op weg zijn naar een nieuwe door spraak gestuurde relatie met technologie. Zoals we al op de consumentenmarkt hebben gezien, is het slechts een kwestie van tijd tot deze door spraak geactiveerde systemen uiteindelijk in het bedrijfsleven worden toegepast. De potentiële voordelen van deze systemen zouden het automatiseren van activiteiten enorm kunnen vereenvoudigen.
Licht, camera, actie!
Gaan we terug naar een wereld waarin de stem het voor het zeggen heeft?
Bedenk maar eens hoeveel gemakkelijker het voor een dokter zou zijn om gewoon te kunnen zeggen: “Systeem: werk de kaart van Jannie Jansen met het volgende bij: “Patiënte klaagt over buikpijn, verstrek een recept voor 200mg ‘SuperAntiGas’, getekend door Dr. VoelBeter.” En zou het niet veel effectiever zijn om in een vergaderzaal geen tijd meer te verdoen met het uitzoeken welke afstandsbediening nu de projector of het scherm aanzet, maar te kunnen volstaan met het eenvoudige spraakverzoek: “Systeem: schakel de projector in, zet de TV aan en dim het licht”?
De problemen
Maar waar bevinden we nu ons op de weg naar voice-first? Het spraakanalysebedrijf VoiceLabs geeft een overzicht van de diverse lagen die nodig zijn om de invoering van voice-first in de consumentenwereld te ondersteunen. De overstap van de gemakkelijke consumententoepassingen naar de realisatie van een meer spraakgestuurde omgeving in het bedrijfsleven, gaat echter niet over één nacht ijs.
Als we willen dat onze bedrijfssystemen van spraakcommando’s afhankelijk zijn, is beveiliging van het grootste belang . Zou iedereen zo maar kritieke apparatuur of systemen moeten kunnen bedienen door gewoon te spreken? Het antwoord hierop moet duidelijk ‘nee’ zijn. Bovendien is privacy van groot belang, en hoewel het bovenstaande voorbeeld van de dokter vrij ongecompliceerd lijkt, moet ook hier, met het oog op bestaande regelgeving, goed naar gekeken worden. Worden bijvoorbeeld de rechten van een patiënt geschonden als deze verbale commando’s de medische informatie van de patiënt aan derden bekend maken?
Veilige toegang
We zien nu al de nieuwe generatie spraakherkenningssystemen opkomen waarbij de technologie veilig gebruik kan ondersteunen. Zo behoren banken tot de bedrijven die spraakauthenticatie voor hun systemen voor telefonisch bankieren invoeren. Hoewel bepaalde klanten bezorgd zijn over de beveiliging van hun rekening, heb ik het gevoel dat de invoeringscyclus dezelfde zal zijn als bij e-Commerce, toen de aanvankelijke zorgen over creditcardfraude moesten worden overwonnen voordat we een enorme toename in het aantal online aankopen konden zien.
We zullen uiteraard voortdurend innovaties voor spraakherkenningssystemen blijven zien. Door te garanderen dat alleen bevoegde gebruikers met de juiste privileges de daaraan verbonden acties kunnen uitvoeren, kan je spraaksystemen in het bedrijfsleven gaan beveiligen.
We moeten voice-first producten met een grote aan-/uitschakelaar uitrusten, zodat gebruikers de technologie kunnen toepassen zonder de nadelen van doorlopende controle te riskeren.
En hoewel uw magnetron u misschien niet bespioneert, zullen sommige apparaten altijd aanstaan, altijd meeluisteren en mogelijk zelfs opnames maken. Een paar breed gepubliceerde gevallen van inbreuk op de privacy, bedrijfsspionage of rechtszaken zouden ervoor kunnen zorgen dat de invoering op een laag pitje komt te staan. Het is dan ook een goed idee om voice-first producten met een grote aan-/uitschakelaar uit te rusten, zodat gebruikers de technologie kunnen toepassen zonder de nadelen van doorlopende controle te riskeren. Daarnaast moeten de producten beschikken over betrouwbaar beveiligde toegang tot software om pogingen tot hacken te voorkomen en waar te nemen.
Het bouwen van steeds effectievere spraakherkenningssystemen
Spraakherkenning vond voornamelijk plaats in combinatie met voice response systemen, zoals die worden toegepast in callcenters , in uw auto of zijn ingebouwd in smartphones. Maar zoals velen van ons uit de eerste hand weten, werkt dit op zijn best marginaal. Er zijn technologische ontwikkelingen voor nodig om de herkenning en contextualisatie te verfijnen voordat we serieus kunnen gaan nadenken over gebruik in het bedrijfsleven.
Is woorden herkennen met 90 procent nauwkeurigheid goed genoeg om met een levensondersteunend systeem in een ziekenhuis of een netwerk van een nutsbedrijf te communiceren?
Onderzoeksprogramma’s zoals het Sphinx project van de Carnegie-Mellon Universiteit blijven het vermogen tot taalherkenning verbeteren. Een Internet Trends rapport van Mary Meeker gaf aan dat het spraakherkenningssysteem van Google in 2016 meer dan vijf miljoen woorden met ongeveer 90 procent nauwkeurigheid kon herkennen, maar dat is nog steeds niet erg uitgebreid en nauwkeurig genoeg. Is met 90 procent nauwkeurigheid’ goed genoeg om met een levensondersteunend systeem in een ziekenhuis of een netwerk van een nutsbedrijf te communiceren?
Het gaat bovendien niet alleen over het herkennen van de woorden, het gaat erom wat er met de woorden wordt gedaan. En dit is het punt waar cognitieve machines en AI een rol gaan spelen. Om de context van de woorden te begrijpen, kan gebruik worden gemaakt van een aantal van de grootste spelers in de branche zoals Microsoft, met zijn open source cognitieve herkenningsmachine.
“Wat is de weg naar het station?” is op zichzelf een eenvoudige vraag, maar moet in de juiste context worden geplaatst. Bekendheid met de locatie zou kunnen aangeven dat u hoogstwaarschijnlijk het plaatselijke treinstation bedoelt. Als u in een café in het centrum van de stad zit, zou het antwoord kunnen zijn: “Sla aan het eind van de straat rechtsaf en volg de weg zo’n 500 meter”, maar wij hebben hier aangenomen dat het om het treinstation ging en niet, bijvoorbeeld, het busstation aan de andere kant van de stad of het metro- of tramstation.
Op zoek naar een diepere betekenis
De echte uitdaging is een goed begrip van wat er achter de spraakherkenningssystemen schuilgaat, de integratie van de IoT-apparatuur in het systeem zelf en de controle dat gegeven commando’s ook daadwerkelijk worden begrepen. Hier moeten we die cognitieve machines tevens gebruiken als een controle- en validatiesysteem.
Denk maar eens aan iemand die een commando geeft om het “koelsysteem uit te schakelen naar reactor 4” in plaats van reactor 3 die al is uitgeschakeld, of een dokter die het systeem gebruikt om een schadelijke dosis medicijnen voor te schrijven omdat hij per ongeluk 400 gram in plaats van 400 milligram zei. Dit zijn misschien extreme voorbeelden, maar een holistisch beeld van de acties die worden geautomatiseerd is onontbeerlijk om menselijke fouten te voorkomen en bredere informatie in te voeren om de acties met betrekking tot spraakgestuurde verzoeken te begrijpen. Zo kan misschien “koelsysteem naar reactor 4 uitschakelen” juist zijn, maar het systeem moet dan de reeks operationele procedures begrijpen om die acties uit te kunnen voeren.
De creatie van een API-platform
Een interessant element dat strategisch op de ontwikkeling van echte spraakgestuurde bedrijfsomgevingen zou kunnen aansluiten, is afkomstig uit de innovaties uit de traditionele wereld van voice-communicatie. We zien de grote opkomst van CPaaS (Communicatieplatform als een Service) in het bedrijfsleven, waarbij API’s worden gebruikt om de applicaties van vandaag in spraakgeïntegreerde oplossingen om te zetten.
Hoewel integratie van oudsher de incorporatie van voice- en videodiensten in bestaande applicaties betekende (denk aan een bankapplicatie waarmee u van een online applicatie naar een gesprek met uw bankadviseur kunt omschakelen) gaan deze infrastructuren volgens mij een grote rol in die ‘voice-first’ omgeving spelen omdat ze de rijke API-infrastructuur van CPaaS gebruiken om met applicaties en dingen te communiceren.
De communicatiemethode van CPaaS of andere platformen moet dan ook absoluut worden gestandaardiseerd voordat het mogelijk is een snelle ontwikkeling van spraaktechnologie te ondersteunen. Momenteel heeft elk spraakgestuurd systeem voor consumenten een eigen interface. Zoals bij de historische strijd van ‘Beta tegen VHS’ van tientallen jaren geleden, kan dit ertoe leiden dat bepaalde producten geleidelijk verdwijnen. Evenals een consument die niet wil investeren in de allernieuwste ‘slimme koffiemachine’ om er vervolgens achter te komen dat het platform waarmee die wordt aangestuurd kort daarvoor uit bedrijf is genomen, willen ondernemingen ervoor zorgen dat de nieuwe technologieën waarin zij investeren niet in onbruik raken voordat die investering rendement heeft opgeleverd.
Het beste moet nog komen
Het goede nieuws is dat er technologieën in ontwikkeling zijn die helpen potentiële veroudering tot een minimum te beperken. Zo worden er frameworks zoals IoTivity ontwikkeld waarmee gestandaardiseerde platformen kunnen worden gebouwd. We zien nu al de waarde, voordelen en snelle groei van nieuwe voice-applicaties voor consumenten.
Bovendien zullen we in de nabije toekomst zien hoe een aantal van de basistoepassingen ook binnen het bedrijfsleven zal worden gebruikt. Op de langere termijn, en naarmate vooruitgang met spraakherkenning, spraakbeveiliging en standaardisering van connectiviteit van apparaten wordt geboekt, zien we in zowel de consumentenwereld als het bedrijfsleven steeds meer voice-first activiteiten die complexiteit verminderen en onze productiviteit bevorderen.
Fout opgemerkt of meer nieuws? Meld het hier