TicTacToe ANN und GA

03/28/2017 17:19 EinfachS�#1

Auf Anraten von @[Only registered and activated users can see links. Click Here To Register...] mache ich hierzu einen neuen Thread.

Mein Ziel ist es eine AI f�r TicTacToe zu "programmieren". Dabei soll die AI aus einem k�nstlichen neuronalen Netz bestehen und durch Training, in Form eines genetischen Algorithmus, verbessert werden.

F�r mich erscheint TTT als ein nicht-komplexes aber auch nicht-lineare-separierbares Problem. Daher sollte ein mehrschichtiges 'Feedforward NN' ausreichen. Aktuell habe ich lediglich 3 Schichten (Input, Hidden und Output). Die Input Schicht besteht aus 10 nodes - 9 f�r jedes Feld und 1 f�r die Farbe( x oder o). Als Hidden Layer habe ich zwischen 7 und 15 nodes variiert. Der Output besteht aus 1 node.

Der Input ist diskret und kann nur 3 Zahlenwerte annehmen (-1, 0 und 1). F�r die 9 Felderinputs gilt:

Spoiler

Das "Farbeninput" nimmt zwei Werte an (-1 oder 1), nach dem selben Schema wie eben.
Die Gewichte zwischen den nodes der Schichten variieren zwischen -40 und 40. Sie sind ziemlich hoch angesetzt, weil ich anfangs die Auswirkung testen wollte - im Nachhinein musste ich die Aktivierungsfunktionen anpassen :(
F�r die Hiddenlayer nutze ich eine, an die Gewichte angepasste, TanH-Funktion:

Spoiler

Dabei habe ich den Faktor 0.1 gew�hlt, damit beim ersten Zug alle Werte f�r a(x) realistisch sind. Beim ersten Zug sind die Felderinputs 0 und nur das Farbeninput bestimmt das Ergebnis der Akt.f. - also -40 < x < 40

F�r die Outputlayer habe ich keine stetige Aktivierungsfunktion. Da der Output ja diskret sein soll (1-9) brauchte ich auch eine diskrete Funktion. Zudem soll jeder Wert mit der gleichen Wahrscheinlichkeit erscheinen. Die Summe der Signale von Hidden zu Output ist normalverteilt und demnach kommen die extremen Werte seltener vor:

Spoiler

Woher der Sprung rechts kommt ist mir noch unklar. Ich habe die Werte gefittet und mit der Gausskurve konnte ich die Bereiche w�hlen, in denen die Zahlen 1-9 ausgegeben werden.

Spoiler

Ich konnte eine einigerma�en gerechte Outputverteilung erstellen :D

Was den GA betrifft, kann man sich meinen Post im ChitChat anschauen [Only registered and activated users can see links. Click Here To Register...]
Kurz zusammengefasst:
-ca. 1000 Generationen
-Population von 100 Individuen
-jeder gegen jeden => 99*99 Spiele
-Fitnessfunktion noch unklar
-Mutationsrate von 0.01-0.05
-crossover 'tournament selection' oder 'roulette ...'
-ab und an ein neues ANN hinzuf�gen -> mehr Vielfalt

Das Problem ist die schnelle Konvergenz zu einem sehr unbefriedigenden Ergebnis. Das prim�re Ziel ist es der AI beizubringen, nur erlaubte Z�ge zu machen.

03/28/2017 17:44 Shadow992#2

So riesige Gewichte zu nehmen sind afaik der Tod f�r beinahe jedes NN. Da ist es kein Wunder, dass dein NN nicht oder nur miserabel konvergiert.
Aber das ist nicht das einzige Problem bei der ganzen Sache, ich z�hl einfach einmal auf, was dich daran hindert bessere Ergebnisse zu bekommen:

Deine gew�hlte Aktivierungsfunktion ist sehr schlecht sowohl was Performanz angeht als auch was Konvergenz angeht (mal abgesehen davon, dass du nicht TanH benutzt sondern eine abgewandelte sigmoid ;) ). Ich w�rde dir stattdessen empfehlen die ReLU-Funktion zu benutzen. Es ist nachgewiesen, dass diese Funktion schneller und besser konvergiert als TanH bzw. Sigmoid. (ReLU: https://en.wikipedia.org/wiki/Rectif...al_networks%29 )
Wie bereits erw�hnt sind deine Gewichte richtiges Gift f�r NNs. Normalerweise will man Gewichte zwischen -1 und +1, nicht jedoch viel gr��er/kleiner.
Dein Input ist auch etwas "doof" gew�hlt. -1, 0 und 1 ist prinzipiell ok f�r x, unbesetzt und o. Aber dein zus�tzliches Feld f�r "Welcher Spieler am Zug ist", macht es dem NN enorm schwer "Muster zu erkennen" bzw. dein benutztes NN ist definitiv nicht m�chtig genug, um derartige Abh�ngigkeiten zu erkennen.
Was uns schon zum n�chsten Punkt bringt: Dein Netz, wenn es "zus�tzlich" erkennen soll was valide Z�ge sind und was nicht, underfitted die Daten j�mmerlich. Sprich du brauchst mehr Schichten, ganz spontan w�rde ich zu Input-Layer mit 9 Units (oder alternativ 10) --> 3x3 Convolution (16 Filter) --> 128 Fully Connected --> 64 Fully Connected --> 9 Outputs raten.
So wie ich das sehe modelierst du dieses Problem als Regression-Task, sprich du willst eine konkrete Zahl haben (je nach Feld) als Ausgabe. Regression-Tasks sind aber IMMER schlechter in der Genauigkeit als �uqivalente Klassifikation-Tasks. Sprich was du machen solltest: 9 Output-Units erstellen, wobei jede einen Wert ausgibt und diejenige Unit mit dem h�chsten Output-Wert ist dann das Feld, welches das beste zu setzende Feld ist (oder alternativ, welches ein valides feld ist).
Wie genau du deine NNs trainierst hab ich immer noch nicht verstanden. Wenn ich das richtig sehe trainierst du sie gar nicht, sondern erzeugst jedes mal komplett Neue. Das ist zwar m�glich, aber alles andere als performant oder gar schnell. Ich w�rde also trotzdem zu einem Standard-Training ala SGD tendieren.

Eventuell bringt dir auch mein kleines E-Book dazu ein paar mehr Einblicke und Ideen bzw. Kl�rungen von Unklarheiten: [Only registered and activated users can see links. Click Here To Register...]
Ansonsten frag einfach, dann helf ich dir schon, notfalls mit Codes �ber skype o.�. :D

03/28/2017 18:18 EinfachS�#3

Quote:

Originally Posted by Shadow992

So riesige Gewichte zu nehmen sind afaik der Tod f�r beinahe jedes NN. Da ist es kein Wunder, dass dein NN nicht oder nur miserabel konvergiert.
Aber das ist nicht das einzige Problem bei der ganzen Sache, ich z�hl einfach einmal auf, was dich daran hindert bessere Ergebnisse zu bekommen:

Deine gew�hlte Aktivierungsfunktion ist sehr schlecht sowohl was Performanz angeht als auch was Konvergenz angeht (mal abgesehen davon, dass du nicht TanH benutzt sondern eine abgewandelte sigmoid ;) ). Ich w�rde dir stattdessen empfehlen die ReLU-Funktion zu benutzen. Es ist nachgewiesen, dass diese Funktion schneller und besser konvergiert als TanH bzw. Sigmoid.

Wie bereits erw�hnt sind deine Gewichte richtiges Gift f�r NNs. Normalerweise will man Gewichte zwischen -1 und +1, nicht jedoch viel gr��er/kleiner.

Dein Input ist auch etwas "doof" gew�hlt. -1, 0 und 1 ist prinzipiell ok f�r x, unbesetzt und o. Aber dein zus�tzliches Feld f�r "Welcher Spieler am Zug ist", macht es dem NN enorm schwer "Muster zu erkennen" bzw. dein benutztes NN ist definitiv nicht m�chtig genug, um derartige Abh�ngigkeiten zu erkennen.

Was uns schon zum n�chsten Punkt bringt: Dein Netz, wenn es "zus�tzlich" erkennen soll was valide Z�ge sind und was nicht, underfitted die Daten j�mmerlich. Sprich du brauchst mehr Schichten, ganz spontan w�rde ich zu Input-Layer mit 9 Units (oder alternativ 10) --> 3x3 Convolution (16 Filter) --> 256 Fully Connected --> 64 Fully Connected --> 9 Outputs

So wie ich das sehe modelierst du dieses Problem als Regression-Task, sprich du willst eine konkrete Zahl haben (je nach Feld) als Ausgabe. Regression-Tasks sind aber IMMER schlechter in der Genauigkeit als �uqivalente Klassifikation-Tasks. Sprich was du machen solltest: 9 Output-Units erstellen, wobei jede einen Wert ausgibt und diejenige Unit mit dem h�chsten Output-Wert ist dann das Feld, welches das beste zu setzende Feld ist (oder alternativ, welches ein valides feld ist).

Wie genau du deine NNs trainierst hab ich immer noch nicht verstanden. Wenn ich das richtig sehe trainierst du sie gar nicht, sondern erzeugst jedes mal komplett Neue. Das ist zwar m�glich, aber alles andere als performant oder gar schnell. Ich w�rde also trotzdem zu einem Standard-Training ala SGD tendieren.

Eventuell bringt dir auch mein kleines E-Book dazu ein paar mehr Einblicke und Ideen bzw. Kl�rungen von Unklarheiten: [Only registered and activated users can see links. Click Here To Register...]

Vielen Dank f�r deine Zeit.

Zu deinen Punkten:

Sigmoid ist doch nur eine Art des tanh :confused:.
Was bezweckt bei ReLU denn, dass man negative Werte ignoriert?
Ich hatte die Output Akt.f. halt schon angepasst und war dann zu faul das alles wieder zu �ndern :D. Werde ich wohl machen, wenn ich deine Tipps umsetze.
siehe 4
Wie ist dann die Verbindung von Input zu 3x3 Conv? Jede Inputnode zu jeder Convnode? Und wie sieht es zwischen den Filtern aus?
Ich habe andauernd �berlegt wie ich den Output gestalten soll. Das ist nat�rlich eine ansehnliche L�sung.
Ich trainiere sie nach einem simplen genetischen Algo. Ich lasse die Netzwerke ein paar Spiele machen und bewerte wie gut sie waren. Die besseren werden bei der Fortpflanzung bevorzugt. Die Gewichte zwischen den Layers bestimmen dabei das Genom und das Kind von zwei ANNs setzt sich aus den Gewichten der Eltern zusammen.

EDIT: Dein pdf k�nnte die Fragen bzgl. ConvNet beantworten.

03/28/2017 18:31 Shadow992#4

Quote:

Originally Posted by EinfachS�

Vielen Dank f�r deine Zeit.

Zu deinen Punkten:
Sigmoid ist doch nur eine Art des tanh :confused:.
Was bezweckt bei ReLU denn, dass man negative Werte ignoriert?

Ich hatte die Output Akt.f. halt schon angepasst und war dann zu faul das alles wieder zu �ndern :D. Werde ich wohl machen, wenn ich deine Tipps umsetze.

siehe 4

Wie ist dann die Verbindung von Input zu 3x3 Conv? Jede Inputnode zu jeder Convnode? Und wie sieht es zwischen den Filtern aus?

Ich habe andauernd �berlegt wie ich den Output gestalten soll. Das ist nat�rlich eine ansehnliche L�sung.

Ich trainiere sie nach einem simplen genetischen Algo. Ich lasse die Netzwerke ein paar Spiele machen und bewerte wie gut sie waren. Die besseren werden bei der Fortpflanzung bevorzugt. Die Gewichte zwischen den Layers bestimmen dabei das Genom und das Kind von zwei ANNs setzt sich aus den Gewichten der Eltern zusammen.

EDIT: Dein pdf k�nnte die Fragen bzgl. ConvNet beantworten.

Ah jo mein Fehler meinte "Logistische Funktion": https://de.wikipedia.org/wiki/Logistische_Funktion
Negative Werte bringen deinen Gradienten zum Explodieren. Da du nicht mit Gradienten arbeitest ist dieser Punkt gar nicht so wichtig (obwohl ich trotzdem noch einmal an deiner Stelle �berlegen w�rde auf Gradientenabsteigsverfahren umzusteigen.).
Ist besser :D
Siehe 4
Das PDF d�rfte die Fragen kl�ren, wobei wenn deine Lib das nicht von Haus aus anbietet, reicht f�r Tests u.�. auch die Conv-Schicht weg zu lassen.
Ja die richtige Output-Gestaltung ist mit das "wichtigste" beim Arbeiten mit NNs...
Das ist m�glich, aber das Problem bei GAs als Optimierer bei NNs ist, dass zwei gute Eltern nur sehr selten ein gutes Kind erzeugen. NNs funktionieren halt nur so gut, weil das Zusammenspiel vieler kleiner "Arbeiter" harmoniert. Stell dir das wie in einer Firma vor. Es wird Flie�band-Arbeit gemacht und jedes Neuron/jeder Arbeiter hat einen Bereich auf den er sich spezialisiert hat, wobei er immer das vorverarbeitete Produkt von Arbeiter X kriegt. Das hei�t Firma X hat als Vorverarbeitung "Schrauben der Gr��e nach sortieren" und die Arbeiter danach (also Neuronen in tieferen Schichten) wissen: "Egal was ich mache, ich wei� die Schrauben kommen sortiert an". Jetzt haben wir eine Firma Y und die hat als Vorverarbeitung: "Schrauben der Farbe nach sortieren". Auch hier wissen die n�chsten Arbeiter: "Die Schrauben sind immer der Farbe nach sortiert". Wenn man jetzt aber beide Firmen kreuzt, hat man pl�tzlich sowas wie: "Schicht 1: Alle Schrauben werden der Gr��e nach sortiert", "Schicht 2: Ich wei� egal was passiert, die Schrauben sind der Farbe nach sortiert". Das hei�t Schicht 1 und Schicht 2 arbeiten total aneinander vorbei und werden nur in ganz wenigen Ausnahmef�llen so gut sein wie die original Firmen. Das ist auch mit einer der Hauptgr�nde warum dein NN so derma�en schnell konvergiert. Es hat eben einen Zustand gefunden, den man mit Duchmischen/kleinen Ver�nderunge nicht einfach so beheben kann, weil die "Anpassung der Neuronen aufeinander bzw. untereinander" einfach fehlt.