Forensisch spraakonderzoek: Kan Siri de rechter helpen?

“Siri, wat staat er in mijn agenda?” Het aansturen van je apparaten met je stem wordt steeds normaler. Als ik thuis de tijd wil weten, snel even een timer wil zetten of een discussie heb à la ‘is tomaat groente of fruit’ of ‘hoe lang moet je aardappelen koken’, wordt mijn spraakgestuurde assistent steeds vaker aangeroepen. Het lijkt wel alsof computers tegenwoordig feilloos in staat zijn menselijke spraak te verstaan en zelfs te herkennen wie de vraag stelt. Betekent dit dat computers ook uitkomst kunnen bieden bij het herkennen van criminelen op telefoontaps? In deze post leg ik uit waarom spraakcomputers in opsporingsonderzoeken meestal niet gebruikt kunnen worden.

Wat zeg je?!

Om te beginnen zijn stemmen in geheim opgenomen (telefoon)gesprekken vaak erg slecht te horen. Dat komt omdat er bijna altijd achtergrondlawaai is of mensen door elkaar spreken – het was immers niet hun bedoeling om een mooie geluidsopname te maken. Probeer maar eens tegen Siri te zeggen dat de televisie zachter moet: als je stem door het geluid van de tv wordt overstemd, gaat dit je niet lukken. Zo is het ook met spraakopnames in opsporingsonderzoeken. Als het achtergrondgeluid te luid is, is het lastig om conclusies aan de opname te verbinden. Soms kun je nog net ontcijferen wat er ongeveer wordt gezegd, maar het is dan vaak onmogelijk om de spreker te herkennen.

De kwaliteit van getapte telefoongesprekken kan bovendien verslechterd zijn door een slechte verbinding. Een telefoon is helemaal niet ontworpen om kwalitatieve spraakopnames mee te maken. Zelfs als de verbinding op het gehoor prima lijkt, wordt een gedeelte van het spectrum afgeknipt omdat het overbodig is voor het verstaan van spraak. Dit alles maakt dat geluidsopnames die als bewijs in een rechtszaak dienen vaak verre van optimaal zijn voor het uitvoeren van spraakonderzoek. Daardoor vertonen ze vaak grote verschillen met opnames die ter vergelijking van de verdachte worden opgenomen. Een computer kan niet uit elkaar houden welke verschillen door technische aspecten komen, en welke doordat er verschillende sprekers te horen zijn. Een computer zal dus concluderen dat het om twee verschillende sprekers gaat.

Appels en peren

Een ander probleem met materiaal in opsporingszaken is dat het vaak heel kort is. Er is dan weinig variatie op een opname te horen. Soms zegt één spreker zelfs alleen maar ‘ja’ in een telefoongesprek. Er zijn dan heel weinig aanknopingspunten om een vergelijking te maken met een opname van de stem van de verdachte. Stel dat als vergelijkingsmateriaal een opname van het politieverhoor wordt gebruikt en de verdachte alles heeft ontkend. Er is dan geen enkele overlap met het anonieme telefoontje waar juist de hele tijd ‘ja’ werd gezegd.

Kun je een ‘ja’ en een ‘nee’ dan helemaal niet met elkaar vergelijken? Ja en nee. Wat je kunt vergelijken zijn de toonhoogte, de klankkleur en wellicht de manier van spreken. Maar eigenlijk ben je appels met peren aan het vergelijken. In tegenstelling tot bijvoorbeeld een vingerafdruk of DNA-profiel verandert onze stem namelijk voortdurend: onze tong, lippen en onderkaak moeten zichzelf aanpassen om verschillende klanken te maken. Zo blijft er weinig dat constant blijft over klanken heen en is het niet mogelijk om op basis van één kenmerk een conclusie te trekken. Een spraakcomputer zou op basis van twee gesprekken met verschillende spraakklanken (zoals allemaal ja’s versus allemaal nee’s) wel eens ten onrechte kunnen concluderen dat er sprake is van verschillende sprekers. Daarom is het belangrijk dat een mens onderzoekt in hoeverre het zin heeft om twee opnames met elkaar te vergelijken.

Verschillende stemmetjes

Waar bij het vergelijken van DNA-profielen een verdachte meteen afvalt als mogelijke dader als er ook maar één kenmerk verschillend is, is dat bij het vergelijken van spraak niet het geval. Dezelfde persoon kan namelijk heel verschillend klinken onder verschillende omstandigheden. Zo verandert je stem als je met verschillende mensen praat. Als je degene met wie je praat aardig vindt, ga je een beetje meer klinken als die persoon. Daarnaast blijkt dat heteroseksuele vrouwen hun stem verhogen als ze praten met een man die ze aantrekkelijk vinden. En heb je weleens iemand horen spreken tegen hun kat of baby? Eén persoon bezit dus verschillende stemmetjes.

Daarbij zetten criminelen nog wel eens een andere stem op door bijvoorbeeld hun neus dicht te knijpen als ze een bedreiging uiten. Dat maakt dat een stem heel anders klinkt, terwijl het mogelijk toch dezelfde persoon is. Computers zullen in deze val trappen en concluderen dat er geen match is, terwijl een menselijke analist alternatieve verklaringen voor gevonden verschillen kan overwegen.

Een “match”

Wat je dus nodig hebt voor forensisch spraakonderzoek zijn twee of meer opnames die onder vergelijkbare omstandigheden zijn opgenomen. Daarnaast moeten er kenmerken zijn die in beide opnames aanwezig zijn. Als er lang genoeg achter elkaar gesproken wordt kun je bijvoorbeeld kijken naar spreektempo, gemiddelde toonhoogte en variatie in toonhoogte. Ook kun je de stem typeren: klinkt het krakerig, hijgerig, geknepen? Hoor je een spraakgebrek, tongpiercing of beugel? En heeft iemand een accent? Als veel kenmerken op beide opnames hetzelfde klinken wijst dat in de richting van een “match”. Bij het vergelijken van spraak moet echter ook rekening gehouden worden met hoe typisch een kenmerk is. Als je een zachte g hoort op beide opnames, hoeft dat bijvoorbeeld niet te betekenen dat je dezelfde spreker hoort. Het kan evengoed een willekeurig ander persoon zijn met een zachte g.

Spraakonderzoek is dus niet zo makkelijk als het lijkt en is genuanceerder dan computers op dit moment aankunnen. Gelukkig kunnen we op veel andere gebieden in ons leven wel op computers rekenen. Siri, lichten uit!

Hoofdfoto: Meike de Boer

Plaats een reactie