Hvordan undgår man, at kunstig intelligens diskriminerer?

Når data spejler menneskers fordomme, og teknologi ikke har nogen moral, hvordan undgår man så diskrimination? Professor i maskinlæring Christina Lioma giver her et indblik i arbejdet med retfærdig kunstig intelligens

Christina Lioma er professor i datalogi og leder af afdelingen for maskinlæring ved Institut for Datalogi på Københavns Universitet
Christina Lioma er professor i datalogi og leder af afdelingen for maskinlæring ved Institut for Datalogi på Københavns Universitet. Foto: Københavns Universitet.

For snart 10 år siden lancerede Google en app, der kunne genkende folks ansigter. Google Photos, hedder appen, hvor man kan lagre sine billeder digitalt. Der var bare det problem, at appen bedst kunne genkende hvide menneskers ansigter. Faktisk blev billeder af sorte mennesker fortolket som gorillaer.

Og der er mange lignende eksempler på, at kunstig intelligens har båret rundt på indlejrede fordomme, som så er mundet ud i diskrimination. Indenfor datalogien taler man også om bias, der ifølge Den Danske Ordbog betyder noget i stil med ”forudindtagethed” eller ”skævhed”. Det er den slags problematikker, Christina Lioma, professor i maskinlæring ved Københavns Universitet, blandt andet arbejder på at reducere.

Hvad er forklaringen på, at brugen af kunstig intelligens kan føre til diskrimination?

Bias eksisterer ikke kun i data, men overalt i verden. I alle objekter, mennesker og informationer vil der altid være en form for ubalance med hensyn til køn, politisk orientering, hudfarve, seksuel orientering, uddannelsesniveau, hvad som helst. 

Og data er en afspejling af mennesker – det er bare noget, vi har skrevet, observeret eller fremstillet. Men data har ikke det moralske aspekt, der forhåbentlig får os mennesker til at undlade at diskriminere. Så fordi de her skævheder sniger sig ind i inputtet – de data, vi fodrer kunstig intelligens med – kommer de også ud i outputtet.

Google Photos-hændelsen skete ikke, fordi der arbejdede onde eller racistiske mennesker hos Google. Det var ikke med vilje. Det skyldtes, at da de trænede algoritmen, var der ikke nok repræsentation af mennesker med forskellige hudfarver. Der var sandsynligvis en afbalanceret repræsentation af mennesker og dyr, men ikke af mennesker med enhver hudfarve.

Hvad er det så, man skal være opmærksom på, når man bruger kunstig intelligens?

At de enorme muligheder med kunstig intelligens kun er gavnlige, hvis kunstig intelligens bruges korrekt, og hvis vi ved, hvordan vi skal fortolke det output, vi får. Vi må forstå, at bare fordi noget kommer ud af en computer, er det ikke den eneste mulige sandhed. Det er kun et forslag og en tilnærmelse, som skal tages med et gran salt.

Og hvad er opgaven bag kulissen for dataloger som dig?

Indsatsen for at reducere bias kan finde sted, før algoritmen begynder at træne, under træningen af algoritmen, og også i fortolkningen af outputtet af algoritmen. Jeg arbejder på alle disse områder med at forsøge at reducere bias. Jeg har et løbende samarbejde med samfundsforskere og politologer og socialantropologer, og vi har haft mange diskussioner om, hvad der er bias og så videre. Vi er stadig ikke blevet enige om en definition, men det betyder ikke, at vi ikke allerede kan forsøge at skabe løsninger.

Hvad kunne være et eksempel på en løsning?

Når man for eksempel skal træne en algoritme, er man nødt til at have en liste over potentielle skævheder og undersøge de data, man bruger til at træne algoritmen, og sikre sig, at de er balancerede. Det er ikke så nemt, for der kan være tilfælde, hvor der er meget klare årsagssammenhænge mellem en bestemt form for mennesker, en bestemt hudfarve og en bestemt adfærd.

Der er mange eksempler fra USA, hvor der kan være ubalance i indkomsten mellem mennesker af forskellig hudfarve. Lad os sige, at du i bankverdenen bruger kunstig intelligens til at træffe beslutninger om, hvem der må få et lån. Men selv hvis du udelukker hudfarve – en faktor, som du måske ved forårsager bias – så vil kunstig intelligens kunne opdage andre mønstre, der dybest set er eksklusive for folk med en bestemt hudfarve: Postnummer, uddannelsesniveau og sådan noget. 

Men grundlæggende er man nødt til at være bevidst om de moralske dimensioner, som man ønsker at undgå at have bias i, og afbalancere dem i træningsdataene.

Det lyder svært?

Det er ufatteligt svært, og det er i grunden ikke et særligt computerteknisk problem. Hvis du beder en datalog om at definere moral, er der ingen formel, der kan gøre det. Jeg ved ikke engang, om filosoffer kan gøre det? Og det er et meget varmt emne lige nu i international forskning. Vi er stadig i den spæde start, men om et årti forventer jeg betydelige fremskridt.

Tror du, at vi om 10 år er færdige med at diskutere problemerne med forudindtagethed i data?

Nej, nej, nej. Jeg tror, problemerne er kommet for at blive. Men måske er diskussionen en smule mere moden, og i datalogien vil vi nok have flere værktøjer til rådighed til at identificere og reducere forudindtagethed. Forhåbentlig vil lovgivningen ikke halte bagud, som den gør i dag, for vi har brug for lovgivning.