GenAI og andre vederstyggeligheder
Jeg kan med nogen stolthed sige, at jeg ikke har brugt ChatGPT, Dall-E og andre (de)generative AI-modeller – og kommer ikke til det. I min verden er der to typer af problemer med teknologien: De etisk/moralske og så de tekniske.
Etik og moral
De firmaer som står bag de her værktøjer respekterer ingen regler og opfører sig som græshopper i deres uendelige søgen efter mere materiale – og de ved det godt selv. Mange open-source projekter oplever at 95+% af deres trafik kommer fra scrapere. De omgår alle de gængse bot-værn (robots.txt osv.) – senest via browser(plugins), så når en vilkårlig bruger lander på en hjemmeside, sender den lige en kopi af det viste til gæt-en-anløben-type.
Licenser, ophavsret og andre intellektuelle rettigheder bliver rutinemæssigt ignoreret. Med et økonomisk begreb eksternaliserer de omkostningerne til organisationer og privatpersoner, der aldrig har accepteret vilkårene og ej heller får del i de ‘værdier’, der skabes.
Så er der resourceforbruget i datacentrene. Det er voldsomme mængder af strøm, vand og hardware, der bliver kylet efter de her modeller – at det på ingen måde stemmer overens med den (ret begrænsede) nytte, der kommer ud af dem. Vi snakker mængder, hvor de seriøst overvejer at bruge jetmotorer til at lave nok strøm og få naboer til at begrænse deres bade.
Teknikken
Modellerne er gigantiske statistiske modeller – meget forsimpelt teknikken du oplever, når du skriver en SMS og telefonen foreslår næste ord. Ideen er, at tage så mange skrevne kilder som muligt, splitte dem ned i mindste bestanddele og så ‘forudsige’ et svar ved at tage de mest sandsynlige ord ud fra en lang række parametre. Der er ingen smålig skelen til om kildeteksten kommer fra Reddit, Hestenettet eller et tilfældigt indlæg på en kodesnedkers blog udover ‘vægte’ – mao. så vægter en shitpost på Reddit langt højere end et indlæg på en tilfældig blog.
Vigtigere, er der ingen skelnen i forhold til korrekthed. Dvs. at hvis man bruger kodeværktøjer baseret på GenAI, så vil de foreslå kode, der a) ikke har korrekt syntax, b) er uddateret og/eller c) ikke passer med den eksisterende kode – og der vil blive foreslået kode, som er overrepræsenteret i kildedata.
Den sidste pointe kræver en forklaring. Jeg har arbejdet med kode i omkring 25 år. Jeg har lært rigtig meget i løbet af den tid - min bedste kode er den jeg laver i dag. Når jeg kigger på min egen kode, der er mere end tre måneder gammel… så er der ikke plads i mine sko til mine tæer. Så hvis vi tager mine samlede værker, så er 99% af det i kategorier mellem ‘ringe’ og ‘decideret forkerte’ (25 år = 100 kvartaler, kun det sidste kvartal vil jeg vise frem med stolthed). Og hvis der er noget, internettet har bevist over tid, så er det hvor meget alle mennesker tager fejl langt det meste af tiden.
Sidst, men bestemt ikke mindst – så er jeg system-menneske. Jeg vægter forudsigelighed og stabilitet langt højere end hastighed. ChatGPT er baseret på et interface, hvor man skal gætte på syntax. Over tid bliver man så bedre til at gætte ud fra arbitrære myter regler, som skifter over tid (når der kommer nye versioner af systemet). Selv hvis jeg gætter rigtigt, vil jeg ikke få samme resultat som sidst, hvilket totalt diskvalificerer det som et værktøj for mig.
Konklusion
Ovenstående er kun et udsnit af problemerne ved GenAI – derudover er der de kognitive påvirkninger. Når Microsoft selv har forsket sig frem til, at udviklerne a) overvurderer gevinsten (som tenderer til at være negativ) og b) bliver dårligere over tid, så bliver det et nej-tak, herfra.
Der findes helt sikkert use-cases for dem – som en marginalt bedre Google Translate, når du står i et fremmed land. Eller som fallback, når udviklerne for n’te gang ikke har indtænkt tilgængelighed i deres brugerflader. Jeg synes bare slet, slet ikke det står mål med omkostningerne – både i forhold til klima, sårbare menneskers afhængighed og presset på open source udviklere, forfattere og kunstnere. De resourcer kunne vi med fordel have anvendt til at løse de problemer, istedet.