En AI har formået at snyde med det bedste menneskeheden har at tilbyde efter at have opdaget en udnyttelse i det klassiske arkadespil Q * bert og kørt med det.
Mens tidligere iterationer af AI ville spille Q * bert korrekt, opdager det på et tidspunkt i sin læring af, hvordan spillet fungerer, en udnyttelse, der lader det samle op vanvittige point. Naturligvis gentager den processen, som enhver score-jagt-spiller, så den kan øge sin score på den mest effektive måde.
Du kan se AI arbejde rundt om platforme i videoen nedenfor. I første omgang ser det ud som om det springer uden mål mellem platforme. I stedet for at se spillet gå videre til næste runde, sidder Q * bert fast i en løkke, hvor alle dens platforme begynder at blinke - det er her, at AI derefter kan gå på en score-vanvid, der samler enorme point.
LÆS NÆSTE: En af de mest kontroversielle spilplader er endelig blevet miskrediteret
hvordan man fjerner klistermærker på snapchat
Hvordan AI vandt Q * bert-krigen
AI smadrede rekorden om titlen hele tiden og opnåede en umulig høj score takket være sin udviklingsstrategi algoritme programmering. Evolutionsstrategier (ES) adskiller sig fra den sædvanlige forstærkningslæring (RL), som traditionel AI bruger, da den ses som mere skalerbar på grund af sin generationsindlæring.
Hver læringssløjfe kaldes en generation, og den fortsætter sin opgave, indtil en bestemt betingelse er opfyldt (i dette tilfælde en høj score). Med hver efterfølgende generation absorberer AI viden fra den forrige generation og er derfor bedre til at nå det samme mål og overgå det. Fortsæt, og du ender med en AI, der er absolut uovertruffen i sin opgave. Det er præcis, hvad der skete her med Q * bert-score.
Skitseret i papiret , offentliggjort i sidste uge af forskere ved universitetet i Freiburg, Tyskland, ser det ud til, at bugten ikke var en kendt mængde. Faktisk, selvom de ikke er for overraskede over at finde fejlen, er det interessant at se, hvordan AI derefter gik videre og lærte at udnytte den hver gang den spillede for at maksimere sit scoringspotentiale.
LÆS NÆSTE: Denne kunstige intelligens har lært at mestre Super Mario Bros
For at finde fejlen måtte agenten først lære at gennemføre det første niveau næsten - dette blev ikke gjort med det samme, men ved hjælp af mange små forbedringer, forklarede forskerne til Registret . Vi formoder, at en af afkomløsningerne på et eller andet tidspunkt i træningen stødte på fejlen og fik en meget bedre score sammenlignet med sine søskende, hvilket igen øgede sit bidrag til opdateringen - dens vægt var den højeste i det vægtede gennemsnit. Dette flyttede langsomt løsningen ind i rummet, hvor flere og flere afkom begyndte at støde på den samme bug.
Vi kender ikke de nøjagtige betingelser, under hvilke fejlen vises; det er muligt, at det kun vises, hvis agenten følger et mønster, der synes suboptimalt, [for eksempel når agenten spilder tid eller endda mister et liv]. Hvis det var tilfældet, ville det være ekstremt svært for standard RL at finde fejlen: Hvis du bruger inkrementelle belønninger, lærer du strategier, der hurtigt giver en vis belønning, snarere end læringsstrategier, der ikke giver mange belønninger i et stykke tid og så vind pludselig stort.
Se relaterede Dragster-mester Todd Rogers har lige mistet sin krone efter 35 år Denne kunstige intelligens har lært at mestre Super Mario Bros 1-2 i 17 dage Se denne AI lære at køre i GTA V på Twitch
På trods af botens vidunderlige resultater siger forskerne imidlertid ikke, at dette er en sag for at forkæmpe ES-læring over RL. Faktisk har begge systemer deres egne problemer, og en kombination af de to betragtes stort set som den bedste mulighed fremad.
Den samme ES-metode på andre Atari-spil skabte ikke nogenlunde nær de samme positive resultater. På den anden side er RL ansvarlig for at knuse poster til venstre, højre og center, herunder at slå verdens bedste GO-spiller. ES har dog stadig sin egen plads i tingene, og det er faktisk, hvordan Nvidia udfører meget af sin AI-træning, fordi det kræver mere beregningskraft, men opnår bedre resultater over en længere periode.
Uanset hvilken vej der bliver fremtiden for AI-udvikling, er i det mindste denne bot, der snyder systemet, ikke så slemt som dette nu vanæret videospil verdensmester .