AI OPPII RYHMÄTYÖTÄ DOMINOIMALLA MONINPELEISSÄ

Tietokoneet ovat hallinneet ihmisiä yksinpelissä peleissä, kuten shakki, vuosikymmenien ajan, mutta keinotekoisen älykkyyden (AI) saaminen yhteistyöhön joukkuetovereiden kanssa on hieman hankalampi. Nyt Googlen DeepMind-projektin tutkijat ovat opettaneet AI-pelaajia toimimaan yhdessä joukkueissa sekä ihmisten että muiden tietokoneiden kanssa kilpaillakseen vuoden 1999 videopelissä Quake III Arena .

Edd Gent at Science ilmoittaa, että kun AI: lla on vain yksi vastustaja, se menee yleensä melko hyvin, koska se vain ennakoi yhden mielen mahdollisia liikkeitä. Mutta ryhmätyö on aivan eri asia, koska se sisältää toimia, joissa tietokoneet eivät ole perinteisesti hyviä, kuten esimerkiksi ryhmäkaverien käyttäytymisen ennustaminen. Jotta AI: stä tulisi todella hyödyllisiä, sen on opittava tekemään yhteistyötä muiden älykkyysten kanssa.

Googlen DeepMind-tiimi selittää blogiviestissä:

”Miljardit ihmiset asuvat planeetalla, jokaisella on omat tavoitteensa ja tekonsa, mutta kykenevät silti tapaamaan tiimien, organisaatioiden ja yhteiskuntien kautta vaikuttavia kollektiivisen älykkyyden näytöksiä. Tätä asetusta kutsumme moniagenttikoulutukseksi: monien yksittäisten agenttien on toimittava itsenäisesti, silti opittava vuorovaikutukseen ja yhteistyöhön muiden aineiden kanssa. Tämä on erittäin vaikea ongelma - koska sopeutumisaineiden kanssa maailma muuttuu jatkuvasti. ”

Moninpelit, ensimmäisen persoonan videopelit, joissa pelaajien joukkueet kiertävät virtuaalimaailmojen ympäri, yleensä ampumalla aseita tai kranaatinheittimiä toisiinsa, on täydellinen paikka AI: lle oppia tiimityön monimutkaisuuksia. Jokaisen pelaajan on toimittava erikseen ja tehtävä valintoja, joista on hyötyä koko joukkueelle.

Tutkimusta varten joukkue koulutti AI: n pelaamaan lipun Quake III Arena -alustalla. Säännöt ovat melko yksinkertaiset: Kaksi joukkuetta kohtaavat sokkeloisella taistelukentällä. Tavoitteena on kaapata niin monta muuta joukkuetta virtuaalilipusta suojaamalla samalla omia lippujaan, ja kumpi joukkue voittaa eniten lippuja viidessä minuutissa. Käytännössä asiat voivat kuitenkin muuttua hyvin monimutkaisiksi nopeasti.

DeepMind-joukkue loi 30 hermoverkkoalgoritmia ja sai heidät taistelemaan keskenään sarjassa satunnaisesti muodostettuja pelikarttoja. Botit antoivat pisteitä vangitsemalla liput ja kiinnittämällä muut pelaajat lähettämällä heidät takaisin uudelleensijoitettuun alueelle, jossa heidän hahmonsa käynnistetään. Aluksi robotien toimet näyttivät sattumanvaraisilta. Kuitenkin mitä enemmän he pelasivat, sitä paremmiksi heistä tuli. Kaikki hermostoverkot, jotka jatkuvasti hävisivät, poistettiin ja korvattiin voitetun AI: n muunnelluilla versioilla. 450 000 pelin lopussa joukkue kruunasi yhden hermoverkon - nimeltään For the Win (FTW) - mestariksi.

DeepMind-ryhmä pelasi FTW-algoritmia niin kutsuttuihin peilibotteihin, joista puuttuu AI-oppimistaitoja, ja sitten myös ihmisjoukkoja vastaan. FTW murskasi kaikki haastajat.

Sitten ryhmä järjesti turnauksen, jossa 40 ihmisen pelaajaa pelattiin satunnaisesti sekä joukkuetovereina että botin vastustajina. Blogiviestin mukaan ihmispelaajat havaitsivat, että robotit olivat yhteistyöhaluisempia kuin heidän tosielämän joukkuetoverinsa. Ihmispelaajat pariksi FTW-agenttien kanssa pystyivät voittamaan kybersotajat noin viidessä prosentissa otteluista.

Heidän oppiessaan robotit löysivät joitain ihmispelaajien pitkään omaksemia strategioita, kuten hengailua lipun uudelleensijoitettuun pisteeseen lähellä tarttuakseen lippuun, kun se ilmestyy uudelleen. FTW-joukkueet löysivät myös virheen, jota he voivat hyödyntää: jos he ampuivat oman joukkuetoverinsa takaosaan, se antoi heille nopeuden, jotain he käyttivät hyväkseen.

"Mikä oli hämmästyttävää tämän projektin kehittämisen aikana, oli näiden korkean tason käyttäytymisten esiintyminen", DeepMind-tutkija ja johtava kirjailija Max Jaderberg kertoo Gentille. "Nämä ovat asioita, joihin voimme suhtautua ihmisen toimijoina."

Yksi tärkein syy siihen, että botit olivat parempia kuin ihmispelaajat, on se, että he olivat nopeita ja tarkkoja ampujaita, mikä teki heistä nopeamman arvonnassa kuin heidän ihmisen vastustajansa. Mutta se ei ollut ainoa tekijä heidän menestyksessään. Blogin mukaan, kun tutkijat rakensivat neljännessekunnissa viivästyneen reaktioajan robo-ampujaan, parhaat ihmiset saattoivat silti lyödä heitä vain noin 21 prosenttia ajasta.

Tämän alkuperäisen tutkimuksen jälkeen FTW ja sen jälkeläiset on vapautettu Quake III Arenan taistelukentällä kokonaan ja ovat osoittaneet pystyvänsä hallitsemaan entistä monimutkaisemman maailman, jolla on enemmän vaihtoehtoja ja vivahteita. He ovat myös luoneet robotin, joka arvostaa erittäin monimutkaista strategiaavaruuspeliä Starcraft II.

Mutta tutkimus ei ole vain parempien videopelialgoritmien tekemistä. Ryhmätyön oppiminen voi lopulta auttaa AI: ta työskentelemään itse ajavien autojen laivastoissa tai ehkä joskus tulla robotti-avustajiksi, jotka auttavat ennakoimaan kirurgien tarpeita, Science 's Gent raportoi.

Kaikki eivät kuitenkaan ajattele, että arcade-tähden robotit edustavat todellista ryhmätyötä. Georgia Techin tutkija Mark Riedl kertoo New York Timesille, että robotit ovat niin hyviä pelissä, että kukin ymmärtää strategiaa perusteellisesti. Mutta se ei välttämättä ole yhteistyötä, koska AI-ryhmistä puuttuu yksi tärkeä osa ihmisen tiimityötä: viestintä ja tarkoituksellinen yhteistyö.

Ja tietenkin, heillä ei ole myöskään muita yhteistyöpeleistä koostuvien videopelien tunnusmerkkejä: roskat puhuvat toiselle joukkueelle.