Wat doet WolframAlpha voor alfa’s?

Eigenlijk helemaal niet vreemd om tegen een telefoon te praten. Toch was het nieuws toen de iPhone met spraaksturing verscheen. Virtuele assistent Siri laat zich commanderen en beantwoordt je vragen. Voor dit laatste gebruikt Apple het systeem WolframAlpha. Hoe alfa-minded is dit dan wel?

Vooropgesteld: de “computational knowledge engine” WolframAlpha (WA) is ontwikkeld door de maker van het softwarepakket Mathematica™ en niet van een mogelijke tegenhanger Linguistica. Dat zie je aan de gebieden die WA noemt, met wiskunde als eerste en statistics & data analysis als tweede. De kracht van WA wordt hier meteen zichtbaar: er wordt heel wat gerekend en cijfermatig geanalyseerd. Ook bij scheikunde, demografie en sport worden gretig getallen gepresenteerd en met elkaar in verband gebracht. In de betaalde Pro-versie kun je de analyses vervolgens uitvoeren op eigen data, of eigen afbeeldingen importeren en ze Photoshop-achtig bewerken.

Dichter bij de letteren liggen de rubrieken culture & media en words & linguistics. Hier kun je vragen wanneer “The awakening” verscheen en welke personages voorkomen in Hamlet. Het antwoord op de tweede vraag vertelt bovendien hoeveel woorden elk karakter spreekt en geeft spreekduur en sprekerwisseling grafisch weer (nuttig). In totaal bevat Hamlet 29.920 woorden en hebt u voor “silent reading” 110 minuten nodig. Wie doorklikt op het aantal woorden, ziet op de volgende pagina dat dit, voor het Engels alhans, overeenkomt met 2693 regels. Printen met dubbele regelafstand op single-sided 20 lb US Letter paper vergt 0,014 bomen. Wie alternatief bij de Hamlet-feiten doorklikt naar Shakespeare en de plaats waar de bard gestorven is, kan meteen zien dat het daar nu deels bewolkt is.

Terug naar de inhoud: de meest frequente opeenvolging van twee woorden in Hamlet is “my lord” met 179 voorkomens. “I have” en “I am” staan op plaats 6 en 7, terwijl ze in de veel kortere Macbeth (silent reading = 63 minuten) de lijst aanvoeren. Zoeken naar opeenvolgingen van meer dan twee woorden lijkt niet mogelijk. Jammer en onbegrijpelijk is ook dat characters beperkt blijken tot toneelstukken; bij romans of gedichten noemt WA de personages alleen als er een verfilming bestaat. Anders krijg je zuiver getalsmatige informatie zoals het aantal tekens waaruit de titel bestaat (karakters…) of het gemiddelde aantal karakters per woord in academisch proza: 4,8.

Onder linguïstiek is informatie over talen te vinden, zoals taalfamilie en letterfrequentie; volgens WA is dit in het Nederlands niet enotadril maar eniartdog. Een wereldkaart toont waar een taal wordt gesproken. De pakweg 400.000 Duitssprekenden in Argentinië produceren trouwens zo’n 28 megawatt warmte.

Over taal gesproken: hoewel je WA zogenaamd vragen kunt stellen in natuurlijke taal, houdt de interpretatie niet over. “How many books were published between 1900 and 2000?” wordt niet begrepen en daarom gereduceerd tot “between 1900 and 2000”, met als antwoord “100 years”. Een kort alternatief “books 1900-2000” leidt tot “-100 books”. Google interpreteert de getallen hier verrassend genoeg wel als jaartallen. Een ander voorbeeld waar de zoekmachine naar mijn smaak de knowledge engine overtreft, is “where is xanadu”. Googles eerste vier hits betreffen een echte of fictieve locatie op aarde, terwijl WA de keuze geeft tussen een film, een kleur en feature van de maan Titan; een verwijzing naar Coleridge ontbreekt. Via Google vindt de onwetende alfa vervolgens dat het feature een regio is, dus inderdaad een relevant antwoord op een waar-vraag, zij het voor deze alfa weinig voor de hand liggend. Bij “where is bristol” vraagt WA meteen welk Bristol bedoeld wordt, terwijl Google eerst alleen Britse hits levert. In een discussie over de verhouding tussen WA en Google wordt als testvraag “What is the population growth in France between 1980 and 2000” voorgesteld, die WA beter zou moeten kunnen beantwoorden. Inderdaad geeft WA een zinnig antwoord (een percentage), maar sleutelen aan die formulering om het aantal boeken uit die periode te achterhalen, levert nog steeds geen antwoord op.

Wat leert dit ons? WolframAlpha beschikt over erg veel getalsmatige data (“10+ trillion pieces of data from primary sources with continuous updating”, naar eigen zeggen) en over algoritmes om die te bewerken. Het “weet” van sommige termen dat ze dubbelzinnig zijn. Hoeveel WA verder weet, is tot op zekere hoogte af te leiden uit de voorbeeldvragen per kennisdomein, maar zelf vragen formuleren valt nog niet mee. Nu is er natuurlijk verschil tussen browsen door een brede en onbekende context, die al snel onzinnig wordt, en het stellen van een concrete vraag zoals “what time is it”? Apple probeert de vragen voor Siri bovendien binnen de perken te houden met Siri-voorbeeldvragen. Wat niet wegneemt dat er genoeg funny questions overblijven.

This entry was posted in Uncategorized and tagged , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *