Vigtigste Streaming Services AI lærer at snyde ved Q * bert på en måde, som intet menneske nogensinde har gjort før

AI lærer at snyde ved Q * bert på en måde, som intet menneske nogensinde har gjort før



En AI har formået at snyde med det bedste menneskeheden har at tilbyde efter at have opdaget en udnyttelse i det klassiske arkadespil Q * bert og kørt med det.

Mens tidligere iterationer af AI ville spille Q * bert korrekt, opdager det på et tidspunkt i sin læring af, hvordan spillet fungerer, en udnyttelse, der lader det samle op vanvittige point. Naturligvis gentager den processen, som enhver score-jagt-spiller, så den kan øge sin score på den mest effektive måde.

Du kan se AI arbejde rundt om platforme i videoen nedenfor. I første omgang ser det ud som om det springer uden mål mellem platforme. I stedet for at se spillet gå videre til næste runde, sidder Q * bert fast i en løkke, hvor alle dens platforme begynder at blinke - det er her, at AI derefter kan gå på en score-vanvid, der samler enorme point.

LÆS NÆSTE: En af de mest kontroversielle spilplader er endelig blevet miskrediteret

hvordan man fjerner klistermærker på snapchat

Hvordan AI vandt Q * bert-krigen

AI smadrede rekorden om titlen hele tiden og opnåede en umulig høj score takket være sin udviklingsstrategi algoritme programmering. Evolutionsstrategier (ES) adskiller sig fra den sædvanlige forstærkningslæring (RL), som traditionel AI bruger, da den ses som mere skalerbar på grund af sin generationsindlæring.

Hver læringssløjfe kaldes en generation, og den fortsætter sin opgave, indtil en bestemt betingelse er opfyldt (i dette tilfælde en høj score). Med hver efterfølgende generation absorberer AI viden fra den forrige generation og er derfor bedre til at nå det samme mål og overgå det. Fortsæt, og du ender med en AI, der er absolut uovertruffen i sin opgave. Det er præcis, hvad der skete her med Q * bert-score.

Skitseret i papiret , offentliggjort i sidste uge af forskere ved universitetet i Freiburg, Tyskland, ser det ud til, at bugten ikke var en kendt mængde. Faktisk, selvom de ikke er for overraskede over at finde fejlen, er det interessant at se, hvordan AI derefter gik videre og lærte at udnytte den hver gang den spillede for at maksimere sit scoringspotentiale.

LÆS NÆSTE: Denne kunstige intelligens har lært at mestre Super Mario Bros

For at finde fejlen måtte agenten først lære at gennemføre det første niveau næsten - dette blev ikke gjort med det samme, men ved hjælp af mange små forbedringer, forklarede forskerne til Registret . Vi formoder, at en af ​​afkomløsningerne på et eller andet tidspunkt i træningen stødte på fejlen og fik en meget bedre score sammenlignet med sine søskende, hvilket igen øgede sit bidrag til opdateringen - dens vægt var den højeste i det vægtede gennemsnit. Dette flyttede langsomt løsningen ind i rummet, hvor flere og flere afkom begyndte at støde på den samme bug.

Vi kender ikke de nøjagtige betingelser, under hvilke fejlen vises; det er muligt, at det kun vises, hvis agenten følger et mønster, der synes suboptimalt, [for eksempel når agenten spilder tid eller endda mister et liv]. Hvis det var tilfældet, ville det være ekstremt svært for standard RL at finde fejlen: Hvis du bruger inkrementelle belønninger, lærer du strategier, der hurtigt giver en vis belønning, snarere end læringsstrategier, der ikke giver mange belønninger i et stykke tid og så vind pludselig stort.

Se relaterede Dragster-mester Todd Rogers har lige mistet sin krone efter 35 år Denne kunstige intelligens har lært at mestre Super Mario Bros 1-2 i 17 dage Se denne AI lære at køre i GTA V på Twitch

På trods af botens vidunderlige resultater siger forskerne imidlertid ikke, at dette er en sag for at forkæmpe ES-læring over RL. Faktisk har begge systemer deres egne problemer, og en kombination af de to betragtes stort set som den bedste mulighed fremad.

Den samme ES-metode på andre Atari-spil skabte ikke nogenlunde nær de samme positive resultater. På den anden side er RL ansvarlig for at knuse poster til venstre, højre og center, herunder at slå verdens bedste GO-spiller. ES har dog stadig sin egen plads i tingene, og det er faktisk, hvordan Nvidia udfører meget af sin AI-træning, fordi det kræver mere beregningskraft, men opnår bedre resultater over en længere periode.

Uanset hvilken vej der bliver fremtiden for AI-udvikling, er i det mindste denne bot, der snyder systemet, ikke så slemt som dette nu vanæret videospil verdensmester .

Interessante Artikler

Redaktørens Valg

Sådan parres Echo Dot med Firestick
Sådan parres Echo Dot med Firestick
Echo Dot er en af ​​mange versioner af det berømte Echo, Amazons konkurrent på markedet for smarthøjttalere. Som standard er det parret med Alexa, ligesom Google Home har Google Assistent, og Apple HomePod bruger
HP Pavilion dv6 anmeldelse
HP Pavilion dv6 anmeldelse
15.6in Pavilion dv6 bærer HPs karakteristiske sort og kromfarve, og for at være ærlig ser det lidt prangende ud på en bærbar computer i denne størrelse. Det numeriske tastatur på siden af ​​tastaturet er ubehageligt klemt
Sådan finder du ud af, hvilken bruger der kører en proces i Windows 10
Sådan finder du ud af, hvilken bruger der kører en proces i Windows 10
Som du måske allerede ved, er Windows 10 et flerbruger-operativsystem. I dag vil vi se, hvordan vi finder ud af, hvilken brugerkonto der kører en proces i Windows 10.
Sådan laver du en styrkedrik i Minecraft
Sådan laver du en styrkedrik i Minecraft
Potions i Minecraft tilbyder masser af fordele, der gør det lige så let at overleve som en gåtur i parken, mens andre kan være katastrofale, når de indtages. The Potion of Strength er en af ​​de bedste at brygge, fordi den giver
Microsoft tilføjer 4K-temaer til Windows 10 til Microsoft Store
Microsoft tilføjer 4K-temaer til Windows 10 til Microsoft Store
Fra og med Windows 7 opfandt Microsoft et nyt temaformat - themepack. Det blev oprettet, så alle temaressourcerne ville blive pakket i en enkelt fil, og deling af sådanne temaer ville være let. I Windows 8 blev filformatet revideret til deskthemepack og understøttet med angivelse af, om vinduesfarven automatisk ville være
Sådan justeres musens følsomhed på MacBook
Sådan justeres musens følsomhed på MacBook
MacBook-brugere har en tendens til at elske udseendet og følelsen af ​​deres enheder. Alt, hvad Apple virker så problemfrit og glat. Men hvad sker der, når din Macbook-mus er lidt for glat? Nå, du kan ende med at skyde din markør halvvejs
Hvad er forskellen mellem pc og Mac RAM?
Hvad er forskellen mellem pc og Mac RAM?
Computere er computere, ikke? Sikker på, operativsystemerne er forskellige, og de bruger forskellige designfilosofier, men sikkert er RAM'et, der går ind i en pc, og RAM, der går til en Mac, det samme. Svaret er nyttigt