Hvem styrer algoritmene? - blogg.lindso.no

Den siste tiden har vi lest om flere sider ved kunstig intelligens – både positive og negative. Her presenterer jeg det jeg anser som noen utfordringer ved teknologien. For hvem skal egentlig styre algoritmene vi omgir oss med?

Uklar håndtering av persondata

Den 31. mars sendte de italienske personvernmyndighetene GDPD ut et presseskriv der de hevdet at OpenAI hadde brutt italienske og europeiske personvernsregelverk. Der uttrykker de også bekymring rundt databruddet OpenAI hadde den 20. mars da flere av brukernes samtalehistorikk hadde blitt lekket. GDPD mener at OpenAI gir mangelfull informasjon om håndtering av data, og at den massive innsamlingen av persondata kan være ulovlig. I tillegg hevder de at tjenesten mangler tilstrekkelig aldersverifikasjon.

OpenAI har fått flere pålegg fra GDPD som de må imøtekomme innen 30. april for at tjenesten skal bli tilgjengelig igjen for italienske brukere. Dette innebærer blant annet mer transparente vilkår, tydeligere klargjøring av hvordan persondata brukes, og at brukerne må bekrefte at de er myndige. I tillegg må OpenAI gjennomføre en større kampanje der de opplyser om disse endringene.

Per i dag krever de store KI-aktørene at du er 18 år for å ta i bruk tjenestene deres. Dette er påpekt i både Google og OpenAI sine retningslinjer. For OpenAI gjelder dette både for ChatGPT og OpenAI sine APIer, men det finnes et unntak som sier at du kan bruke tjenesten når du har fylt 13 år, dersom du har tillatelse fra foreldre eller foresatte.

Data som ikke kan glemmes

Flere selskaper har den siste tiden blitt mer bevisste på at dataene som skrives inn i ChatGPT blir lagret og vil kunne bli brukt videre. En amerikansk undersøkelse viste at 3,1% har delt konfidensiell informasjon med chatroboten, til tross for at OpenAI selv advarer mot å dele sensitiv informasjon. Dette har blant annet ført til at selskaper som Samsung, Walmart og Amazon har måttet ta affære.

Ifølge GDPR artikkel 17 har du rett til å bli glemt. Allerede der har vi en utfordring med ChatGPT siden det ser ut til at det ikke er så lett som man kanskje skulle tro. En KI er ikke laget for å kunne “glemme” slik som vi mennesker gjør. Dette gjør at man bør være ekstra varsom på hva man deler av informasjon. Selv om du selv ikke deler noe sensitiv informasjon om deg selv med for eksempel ChatGPT, er det en risiko for at andre gjør det.

Overdreven tiltro

Det har versert flere fortellinger om kunstig intelligens etter at OpenAI slapp GPT. “GPT-4 må være selvbevisst! Den sa det selv!”. Eller at Google sin KI er så kraftig at de ikke tør å slippe den på markedet. Snart må det eneste jeg ikke har hørt være at neste versjon av GPT sannsynligvis vil kunne spise suppe med gaffel! At vi tillegger maskinene egenskaper de ikke har vitner om en overdreven tiltro til hva de kan utføre. Når vi sier at vi “snakket med” eller omtaler feil i språkmodeller som “hallusinasjoner”, er dette et uttrykk for antromorfisme. Vi tillegger maskinene menneskelige egenskaper.

MIT-professoren Joseph Weizenbaum skapte mellom 1964-66 det som regnes som en av de første chatbotene. Den fikk navnet ELIZA, og ble av mange sett på som en sensasjon. Ti år senere skrev han i boken Computer Power and Human Reason at mennesker som tillegger datamaskiner menneskelige egenskaper reduserer mennesket, og for øvrig andre livsformer.

Google-ansatte Blake Lemoine ble i fjor sparket for å ha å ha brutt taushetsplikten ved å uttrykke bekymring offentlig. Han mente at Googles språkmodell LaMDa hadde blitt selvbevisst. De ulike chatterobotene er selvsagt ikke selvbevisste, selv om det i teorien vil være mulig. Teknologien og algoritmene er utviklet slik at de vil kunne skape en illusjon av at de er selvbevisste.

Mulige brudd på åndsverksloven

Datasettene til GPT3 er basert på data fra Common Crawl, OpenWebText2, Books1 og Books2, og Wikipedia. For de aller fleste er det nok kun Wikipedia som er kjent. Common Crawl samler inn nettsider og dokumenter fra internett. Selv om masse av dette innholdet er under copyright-lisens, så går innholdet under såkalt “fair use” i USA. Utfordringen er at “fair use” ikke eksisterer i Europa. De andre datasettene inneholder også en blanding av innhold under copyright eller creative commons. Sistnevnte er åpne lisenser, men også disse vil kreve henvisning til opphavsperson. Også bruken av det ene datasettet med bøker har blitt kritisert for mulige brudd på kopirett.

Hva skjer med alt innholdet som genereres av KI på sikt? Det vil bli produsert masse tekst, bilder og lyd som mangler opphavspersoner. Dette kan bli en utfordring for innholdets pålitelighet.

Berettigede bekymringer

Selv om en mer selvbevisst KI i teorien ikke er umulig, tror jeg fortsatt det er en ganske lang vei dit. Og det er nok heller ikke språkmodellene som skal overta verden. Jeg er altså ikke bekymret for en slags dystopisk fremtid der roboten tar over. Men det er definitivt andre faktorer som bør tas på alvor.

Ifølge en artikkel skrevet av forskere på språkmodeller er noen av bekymringene krenkende språk, hatytringer, kjønnsstereotypier, dehumanisering og diverse former for bias. EUs byrå for politisamarbeid, Europol, kom nylig med en oversikt over potensielle trusler som følge av KI. De er bekymret over mye av det samme som forskerne, inkludert mulighetene for svindel.

Mange var sjokkerte over kvaliteten på ChatGPT når den ble sluppet. Men det mest sjokkerende med ChatGPT var egentlig hvor sjokkerte mange ble over kvaliteten på KI. Spesielt med tanke på all KI som har eksistert i tjenestene vi allerede har omgitt oss med i flere år allerede. Det sier noe om at vi er på vei til å bli storforbrukere av teknologien, uten at folk flest nødvendigvis forstår hva den gjør og hvordan den fungerer.

Og vi outsourcer teknologikompetansen i stor grad til land som USA. Og med mengden desinformasjon og falske nyheter vi omgir oss med, er kanskje det siste vi trenger GPT i SnapChat? GPT på er på ingen måte noe orakel, og er en dårlig kilde til kunnskap. GPT er en språkmodell, og er laget for å predikere hva den bør si. Den er altså laget for å etterligne en samtale. Kanskje er det ikke maskinene som er den største trusselen? Kanskje er den største trusselen vår egen naivitet og uvitenhet i møte med maskinene?

Vi trenger en plan

Solberg-regjeringen hadde store ambisjoner for landet når det gjelder kompetanse på KI. Ifølge Nasjonal strategi for kunstig intelligens er det “…behov for både avansert kompetanse i kunstig intelligens og kompetanse i grunnleggende fag som statistikk, matematikk og informatikk”. Vi har flere satsinger som NORA-samarbeidet, og Norwegian Open AI Lab ved NTNU.

Samtidig må også politikere og nasjonale personvernmyndigheter ta ansvar og stille krav til utenlandske aktører som jobber med KI som er myntet på norske forbrukere. Det må stilles krav til at man kan reservere seg fra at persondata brukes i tjenesten. Dette gjelder både for brukere og de som ikke er brukere.

Det må også stilles krav til at åpenhet og viktige prinsipper for utvikling av KI følges. Informasjon som genereres av KI må merkes, slik at både mennesker og maskiner blir opplyst om at det er KI-generert informasjon. Og vi må sørge for at elevene får god opplæring i algoritmisk tenkning og hvordan kunstig intelligens fungerer. Inntil da bør vi være “cautiously optimistic”, som en av Googles representanter sa under en paneldiskusjon på utdanningskonferansen BETT i London.