RegEx Generator Version 1

Page 2 of 2

04/03/2013 17:37 Shadow992#16

Quote:

Originally Posted by Synatex

Okay, ich steig dann mal aus. F�r mich ist das eher nur als kleines Nebenprojekt gedacht das einigen das Leben erleichtern soll, will meine wenige Zeit nun ungern in noch kompliziertere Sachen stecken :)

Hehe kenn ich :D
Ne war ja auch nie so umst�dnlcih gedacht. Ich habe ja von Anfang an gesagt, dass es "cool"/"sch�n" w�re, wenn das ginge, dass das nicht einfach so gemacht wird, ist klar, aber der Vorposter wollte ja eine m�gliche Vorgehensweise des Algorhitmuses sehen. ;)

Edit:
@dowhile
Weil es mir gerade so einf�llt, wirf doch auch einmal einen Blick hierauf:
http://de.wikipedia.org/wiki/Unsicheres_Wissen
Dann wei�t du wie man mit unsicherem Wissen umgeht. ;)

04/03/2013 18:21 dowhile#17

Jetzt hast du die Vorgehensweise des Algorithmus in diesen zwei konkreten F�llen beschrieben. An deinen Beschreibungen sieht man gut, wie unterschiedlich der Algorithmus in besonderen F�llen arbeiten muss. Da es aber eine unbegrenzte Anzahl an "besonderen F�llen" gibt, br�uchten wir nun einen Algorithmus, der einen Algorithmus f�r den vorliegenden, besonderen Fall konstruiert. Kannst du diesen Algorithmus beschreiben?

Quote:

Wenn ich 1000x eine Summe von 2 Zahlen kleiner 10 rechne und dann pl�tzlich die Aufgabe kriege Zahlen mit 10 Ziffern und mehr zu addieren, wird auch der Mensch �berfordert (nicht umsonst rechnet man in der Schule Stufenweise also bis 20, bis 100, bis 1000 und dann bis 100.000).

Ist das Beispiel nicht recht schlecht gew�hlt?

Die Addition l�sst sich mit den Peano-Axiomen so definieren:

Quote:

n + 0 = n
n + (m++) = (n + m)++

Mit dieser Definition kann ein Mensch die Summe f�r beliebige Zahlen berechnen. Er kann die Definition 1000 mal f�r n, m < 10 verwenden und anschlie�end auch problemlos f�r 10^11 < n, m (dauert nur etwas). Der Algorithmus bleibt immer gleich.

Der geforderte Algorithmus muss bei jedem Fall anders vorgehen, d.h. er braucht f�r jede vorhandene Beispiele einen anderen Algorithmus, um die restlichen W�rter zu erraten. Das ist etwas v�llig anderes wie rechnen.

04/03/2013 18:27 Shadow992#18

Quote:

Originally Posted by dowhile

Jetzt hast du die Vorgehensweise des Algorithmus in diesen zwei konkreten F�llen beschrieben. An deinen Beschreibungen sieht man gut, wie unterschiedlich der Algorithmus in besonderen F�llen arbeiten muss. Da es aber eine unbegrenzte Anzahl an "besonderen F�llen" gibt, br�uchten wir nun einen Algorithmus, der einen Algorithmus f�r den vorliegenden, besonderen Fall konstruiert. Kannst du diesen Algorithmus beschreiben?

Ist das Beispiel nicht recht schlecht gew�hlt?

Die Addition l�sst sich mit den Peano-Axiomen so definieren:

Mit dieser Definition kann ein Mensch die Summe f�r beliebige Zahlen berechnen. Er kann die Definition 1000 mal f�r n, m < 10 verwenden und anschlie�end auch problemlos f�r 10^11 < n, m (dauert nur etwas). Der Algorithmus bleibt immer gleich.

Der geforderte Algorithmus muss bei jedem Fall anders vorgehen, d.h. er braucht f�r jede vorhandene Beispiele einen anderen Algorithmus, um die restlichen W�rter zu erraten. Das ist etwas v�llig anderes wie rechnen.

Prinzipiell l�uft der Algorhitmus immer auf dasselbe Prinzip hinaus.
H�ufigkeitsanalyse --> Entscheidungen treffen --> Vergleichen --> Erneute H�ufigkeitsanalyse --> Entscheidungen treffen --> ...

So au�ergew�hnlich ist das auch nicht.
Man kann das Vorgehen bei den Zahlen auf Buchstaben erweitern, auch hier kann man eine H�ufigkeitsanalyse machen.
Ein paar festgelegte Regeln braucht das System dennoch um eben so Sachen wie 0x zu erkennen, der Rest ist alles Wahrscheinlichkeit und KI mit unsicherem Wissen.

@Dein Beispiel
Hier hast du aber eine fest definierte Regel vorgegeben und eben diese soll das System ja ableiten, du rollst das Problem also von der anderen Seite auf.

04/04/2013 17:19 dowhile#19

Okay, dann haben wir also in etwa folgenden Algorithmus:

* Nach gleichen Zeichen in allen Beispielen suchen
* Fixe Zeichen mit vorpogrammierten Mustern abgleichen (0x...)
* Abschnitte zwischen diesen fixen Zeichen untersuchen und durch Absch�tzen die Zeichengruppe festlegen (unter Ber�cksichtigung eventueller �berschneidungen mit bekannten Mustern)

Damit kann der Algorithmus IP-Adressen ungef�hr erkennen (999.666.555.444 ginge auch, ist aber ung�ltig) und hexadezimale Zahlen erkennen.

Das Beispiel mit den Kommazahlen funktioniert hingegen nicht.
"3", "3.5" und "4,65" haben keine fixen Zeichen. Zus�tzlich muss der Algorithmus optionale Teile ber�cksichtigen. Er muss erkennen, dass eine oder mehrere (durch Beispiele mit h�heren Zahlen) kommt und anschlie�end ein "." oder "," folgt. Dann wieder Zahlen.

Jetzt seien folgende Beispiele gegeben: "1000", "5901", "400194", "1789999901", "109889", "10".
Als fixes Zeichen w�rde der Algorithmus die "0" und die "1" erkennen (denn die stecken �berall drin). Der Algorithmus w�rde hier also v�llig falsch arbeiten.
Beheben k�nnte man das, indem fixe Zeichen nicht der restlichen "Gruppe" (Buchstaben, Zahlen, ...) entsprechen d�rfen.
Wenn ich aber alle Zeichenketten, die aus Zahlen und mindestens einem "a"s bestehen akzeptieren m�chte, besteht das Problem weiter.
Der Algorithmus muss hier also anders funktionieren als oben - und das stelle ich mir schwierig vor.

Quote:

@Dein Beispiel

Welches genau meinst du?

04/06/2013 00:23 Shadow992#20

Quote:

Originally Posted by dowhile

Okay, dann haben wir also in etwa folgenden Algorithmus:

* Nach gleichen Zeichen in allen Beispielen suchen
* Fixe Zeichen mit vorpogrammierten Mustern abgleichen (0x...)
* Abschnitte zwischen diesen fixen Zeichen untersuchen und durch Absch�tzen die Zeichengruppe festlegen (unter Ber�cksichtigung eventueller �berschneidungen mit bekannten Mustern)

Damit kann der Algorithmus IP-Adressen ungef�hr erkennen (999.666.555.444 ginge auch, ist aber ung�ltig) und hexadezimale Zahlen erkennen.

Das Beispiel mit den Kommazahlen funktioniert hingegen nicht.
"3", "3.5" und "4,65" haben keine fixen Zeichen. Zus�tzlich muss der Algorithmus optionale Teile ber�cksichtigen. Er muss erkennen, dass eine oder mehrere (durch Beispiele mit h�heren Zahlen) kommt und anschlie�end ein "." oder "," folgt. Dann wieder Zahlen.

Jetzt seien folgende Beispiele gegeben: "1000", "5901", "400194", "1789999901", "109889", "10".
Als fixes Zeichen w�rde der Algorithmus die "0" und die "1" erkennen (denn die stecken �berall drin). Der Algorithmus w�rde hier also v�llig falsch arbeiten.
Beheben k�nnte man das, indem fixe Zeichen nicht der restlichen "Gruppe" (Buchstaben, Zahlen, ...) entsprechen d�rfen.
Wenn ich aber alle Zeichenketten, die aus Zahlen und mindestens einem "a"s bestehen akzeptieren m�chte, besteht das Problem weiter.
Der Algorithmus muss hier also anders funktionieren als oben - und das stelle ich mir schwierig vor.

Ja einfach w�re das mit Sicherheit nicht gemacht, aber es ist nicht unm�glich. Dass der Algorhitmus nie 100% genau arbeiten wird, versteht sich von selbst, das zeichnet ja allgemein den Bereich der KI aus.
F�r einzelne Beispiele k�nnen sich total kroteske Ergebnisse finden, im Durchschnitt kann die Chance richtig zu liegen, jedoch nahe 100% liegen.

Ein interessanter Ansatz zur L�sung dieses Problems w�re das Benutzen von k�nstlichen neuronalen Netzen. Einziges Problem w�re hier lediglich die Lernrate, da man rund 100 Beispiele eingeben m�sste um gute Ergebnisse zu bekommen. Deswegen f�llt dieser Ansatz mit Sicherheit unter dem Tisch, auch wenn er ein interessanter Aspekt w�re.

Page 2 of 2