Repr�sentative Zahl f�r einen String

Page 1 of 2

09/10/2010 20:06 .nAno#1

Heyho,
atm bastle ich nen wenig mit der Bin�ren Zahlen Suche (->Link) rum.
Im Moment dachte ich mir es w�re ja ganz toll, auch Strings damit herauszufiltern und der einfachste Weg, der mir dazu einf�llt w�re eine repr�sentative Zahl f�r den Inhalt �ber die ASCII-Werte zu errechnen.

Nun ist meine Frage: wie soll ich das Anstellen?
Gefordert w�re a) eine niedrige bis keine Kollisionsrate und b) eine Zahl die sich im �hnlichen Bereich bewegt wie das eigentlich geforderte nur mit geringer Abweichung (z.B. wenn haha = 500 w�re, sollte hbhb = 505 sein), damit das n�chste zutreffende Ergebnis gefunden werden k�nnte (ich hoffe ich konnte mich hier halbwegs verst�ndlich ausdr�cken).

Meine Ideen basieren alle auf einer erweiterten Quersumme, welche aber bei weitem nicht beide Kriterien erf�llen, ich hoffe irgendjemand kennt eine h�bsche L�sung daf�r bzw. kann mir helfen einen Eigenen Ansatz zu finden :)

Gru� nAno

09/10/2010 21:23 MrSm!th#2

Meinst du evtl Hashes?
Das w�re es denke ich mal; ein Wert, der (im Idealfall) eindeutig f�r einen Datensatz steht.
Problem w�re nur, dass man Hashes im Normal fall nicht r�ckg�ngig machen kann, also nicht auf die originalen Daten schlie�en kann.
W�re das schlimm f�r deine Planung?

09/10/2010 21:34 Madd Eye#3

Code:

#include <iostream>
#include <string.h>

using namespace std;

int get_string_num(char eingabe[])
{
	int summe = 0;
	char * text = strtok(eingabe, "");

	for( int i = 0; i < sizeof( text ); i++ )
	{
		summe += int(text[i]);
	}

	return summe;
}

int main()
{
     char eingabe[256]
     while(1)
     {
       cin >> eingabe;
       int ausgabe = get_string_num(eingabe);
       cout << ausgabe << endl;
     }
  
     return 0;
}

Ne Sprache w�r nat�rlich gut wenn du angeben w�rdest
Oben ist es in C++ gel�st

In VB.Net k�nnte es so aussehen:

Code:

    Private Function get_string_num(ByVal eingabe As String)
        Dim summe As Integer = 0
        Dim i As Integer = 0

        For i = 0 To eingabe.Length - 1

            summe += Asc(eingabe.Substring(i, 1))
        Next i

        Return summe
    End Function

@Mr. Sm!th

er sagte ja das er einen Repr�sentativen Zahlen wert f�r einen String �ber die ASCII Werte errechnen m�chte
So wie ich das verstanden hab darf sich dieser auch wiederholen

09/10/2010 23:08 MrSm!th#4

Er sollte doch m�glichst keine Kollisionen bieten!
Also genau das, was man unter einem Hash versteht.

09/11/2010 00:48 .nAno#5

ja, ich dachte da an eine Art Hash (weswegen ich auch mal davon ausgegangen bin hier nicht unbedingt falsch zu sein ;)) Nur kenne ich keinen dessen Ausgabe rein auf Zahlen beschr�nkt ist und zus�tzlich noch ne niedrige Kollisionsrate hat (um ehrlich zu sein nur meinen eigenen, der allerdings auch nur eine hohe Kollisionsanzahl aufweist; es mag auch daran liegen, dass mir md5 und Konsorten immer f�r meine Zwecke gen�gt haben)

Die Zahl muss nicht auf den Ursprung zur�ckzuf�hren sein, sie soll nur m�glichst einen String beschrieben und nur diesen einen und dabei auf selbst geringe Abweichung im String mit einer �quivalenten Ver�nderung in der Zahl reagieren (ich w�sste nicht, wie ich es besser ausdr�cken sollte, falls noch Verst�ndnissprobleme bestehen sollten am besten einfach nochmal n�her darauf eingehen ;))

09/11/2010 00:57 MoepMeep#6

Quote:

Originally Posted by Madd Eye

Oben ist es in C++ gel�st

Ist es nicht. Das ist eher ein C/C++ mischmasch.

09/11/2010 01:05 Madd Eye#7

N� ist C++ ^^

H�t aber noch nen L�sungsansatz
erzeug doch nen MD5 Hash und ersetz die Buchstaben mit dem ASCII Code

09/11/2010 01:11 MoepMeep#8

Quote:

Originally Posted by Madd Eye

N� ist C++ ^^

F�r Mr.Copy&Paste schon, f�r jeden mit Ahnung, ist das kein reines c++ :>

09/11/2010 01:13 Cholik#9

Wieso nicht einfach std::binary_search() verwenden ==D

Naja eine repr�sentative Zahl f�r einen String w�rde ja nur dann vielleicht Sinn machen wenn deine Strings zu lang w�ren, wieso nimmst du ansonsten nicht einfach die Strings wie sie sind?
Ansonsten weisst du ja denke ich schon wie die bin�re Suche funktioniert, der Algorithmus ist ja nicht schwer zu verstehen f�r dich.

09/11/2010 02:26 .nAno#10

Quote:

Originally Posted by Madd Eye

N� ist C++ ^^

H�t aber noch nen L�sungsansatz
erzeug doch nen MD5 Hash und ersetz die Buchstaben mit dem ASCII Code

Das w�rde vermutlich Kollisionen verursachen und Kriterium b) w�re bestenfalls ab und an durch Zufall erf�llt, f�r eine gute L�sung wird man wahrscheinlich nicht bei den bisherigen Dingen bleiben k�nnen sondern muss sich etwas neues �berlegen

Quote:

Originally Posted by Walter Sobchak

Wieso nicht einfach std::binary_search() verwenden ==D

Naja eine repr�sentative Zahl f�r einen String w�rde ja nur dann vielleicht Sinn machen wenn deine Strings zu lang w�ren, wieso nimmst du ansonsten nicht einfach die Strings wie sie sind?
Ansonsten weisst du ja denke ich schon wie die bin�re Suche funktioniert, der Algorithmus ist ja nicht schwer zu verstehen f�r dich.

Den Algorithmus habe ich selber nach dem in Wikipedia genannten Funktionsprinzip geschrieben und nen wenig nach meinen Bed�rfnissen modifiziert (die Grundform bleibt aber, obwohl der Algo selber hier gerade vollkommen uninteressant ist, es geht nur darum, das er lediglich Zahlen akzeptiert und diese auch wesentlich schneller verarbeitet werden k�nnen)

Falls es wem hilft die Problematik besser zu durchschauen, hier mal der relevante Source. Die genannte Modifikation besteht eigentlich nur darin, das er anstatt ein "Nein, hab nichts gefunden" die n�chst gr��ere Ziffer im Array (und gerade deswegen ist es mir so wichtig, dass die Strings sich je nach Inhalt �hneln oder unterscheiden, wenn es den gesuchten String nicht gibt soll der n�chst bessere herangezogen werden) ausgibt:

PHP Code:


			
//C++ Code

int binarySearch(int *arr, int count, int desiredResult)

{

    int objCount = count;

    int middle = objCount / 2;





    //solange die Anzahl der infrage kommenden Objekte gr��er 1 ist UND das aktuell als Mitte gegebene Fach ungleich dem gesuchten Ergebeniss ist...

    while ( objCount > 1 && desiredResult != arr[middle] )

    {



        //...�berpr�fe, ob der Wert des mittleren Faches gr��er ist, als das gesuchte Ergebniss

        if( arr[middle] > desiredResult )

        {

            //Ja: setze das mittlere Fach auf die Mitte der H�lfte mit den ebenfalls gr��eren Werten

            middle *= 1.5;

        }

        //NEIN: Das Fach ist zwangsl�ufig kleiner, da diese �berpr�fung erst gar nicht aufgerufen worden w�re, wenn der Wert des Mittlefaches mit dem Gesuchten �bereinstimmen w�rde

        else

        {

            //also setze die Mitte auf den Mittelpunkt der H�lfte mit den kleineren Teilen

            middle *= 0.5;

        }



        // Die Anzahl der infrage kommenden Objekte im Array wurde halbiert, um das n�chst pr�zisere Ergebniss zu erhalten, 

        //falls es keine exkate �bereinstimmung gibt, muss auch die Anzahl der potenziellen Ergebnisse halbiert werden

        objCount /= 2;

    }

    return arr[middle];

}

09/12/2010 00:34 MrSm!th#11

Warum keinen Hash, der nur auf Zahlen basiert?
Soweit ich wei�, tut das jeder Hash, da das der Sinn eines Hashes ist.

MD5 zb. gibt einem auch ne Zahlenkette als Ergebnis.
Klar, wenn man die in einem String speichert, ist es meist als HEX Dezimale dargestellt, aber das hei�t ja nix, ne Zahl ist es trotzdem und speichert man sie auch als diese, dann ist sie ganz normal in 1en und 0en gespeichert :p

Quote:

Die Zahl muss nicht auf den Ursprung zur�ckzuf�hren sein, sie soll nur m�glichst einen String beschrieben und nur diesen einen und dabei auf selbst geringe Abweichung im String mit einer �quivalenten Ver�nderung in der Zahl reagieren (ich w�sste nicht, wie ich es besser ausdr�cken sollte, falls noch Verst�ndnissprobleme bestehen sollten am besten einfach nochmal n�her darauf eingehen )

Dann ist ein Hash wie MD5 ja optimal.

09/12/2010 10:41 .nAno#12

Bestenfalls sollte die Zahl aber auf einen String zur�ckzuf�hren sein, da sie sonst nicht einzigartig ist, au�erdem erf�llt MD5 nicht das 2. Kriterium. Ich hab nen wenig rumgespielt, von einer �quivalenten Ver�nderung kann nicht die Rede sein ;)

09/12/2010 12:00 MrSm!th#13

Oh entschuldige, Kriterium b habe ich �berlesen.
Na dann passt ein Hash doch so �berhaupt gar nicht, denn eines der Prinzipien eines Hashes ist, dass kleinste �nderungen an den Daten schon den ganzen Hash �ndern.

Tja, aber deine Idee klingt f�r mich nicht so wirklich umsetzbar, da du damit automatisch auf die niedrige Kollisionsrate verzichten m�sstest :/

Quote:

Bestenfalls sollte die Zahl aber auf einen String zur�ckzuf�hren sein, da sie sonst nicht einzigartig ist,

Versteh ich nicht, sagtest du nicht, man muss nicht auf den String zur�ckschlie�en k�nnen?
Und einzigartig ist ein Hash wohl, zumindest nahezu o.�
Oder was meinst du nun damit?

09/12/2010 12:05 Shadow992#14

Das Problem liegt doch da:

Ein Hash muss immer eine gewisse Kollisionsrate haben, da es sonst kein Hash mehr w�re.
K�nnte man jedem gehashten Wert einen String zuordnen, w�re es eine Verschl�sselung und kein Hash mehr.
Hashes kann man von daher ausschlie�en, wenn es wirklich extrem wichtig ist, dass jedem String genau eine Nummer zugewiesen werden darf.

Eine Verschl�sselung f�llt wohl auch weg, da der String danach im besten Falle genau so lang wie vorher ist.

Mir pers�nlich w�rde jetzt nur eine Packer �hnliche L�sung einfallen.
So k�nnte man zum Beispiel aus dem hier:

Quote:

AAAABBBEFF

Das machen :

Quote:

A4B3EF2

Unser Code w�rde jetzt also alle hintereinander mehrfach auftauchende Buchstaben durch einen repr�sentativen String ersetzen. A4 sagt uns dann zum Beispiel, dass an dieser Stelle 4 mal ein A kommt. Soetwas geht nat�rlich nicht immer gut und oft bringt es auch nicht gerade k�rzere W�rter/S�tze.

Ich denke aber, dass du dich mehr in Richtung Packer bewegen solltest, da Verschl�sselungen und Hashes in diesem Fall wohl nicht das erw�nschte Ergebniss liefern k�nnen.

09/12/2010 12:47 MrSm!th#15

�hm...Der Idealhash hat eine Kollisionsrate von 0, das ist zwar nicht m�glich, aber da es das Ideal ist, klingts f�r mich komisch, dass er eine haben muss.
Ich w�rde eher sagen, er kann nur eine Rate > 0 haben, da etwas anderes mit einem Hash nicht m�glich ist.

Dein Vorschlag geht ja in Richtung Packen/Komprimieren, aber ich habe nicht verstanden, dass der String m�glichst klein sein soll, sondern einfach, dass sein String durch eine Zahl dargestellt werden soll.
Und keine Angst, die Kollisionsrate bei guten Hashes ist so niedrig...da ist das egal, deshalb werden sie ja auch f�r Passw�rter u.�. genommen.
Problem ist wie gesagt nur, dass es keine kleinen Abweichungen, bei kleinen Datenabweichungen gibt, sondern gro�e.

Eine Idee w�re noch eine Checksum, allerdings w�re da die Kollisionsrate ziemlich gro�.

Quote:

wenn haha = 500 w�re, sollte hbhb = 505

Das w�re dann eben damit m�glich, nur wie gesagt, da wirst du eine sowas von gro�e Kollisionsrate haben....
Ich denke mal, du musst dich f�r ein Kriterium entscheiden oder die Idee mit den Zahlen lassen ;<

Quote:

H�t aber noch nen L�sungsansatz
erzeug doch nen MD5 Hash und ersetz die Buchstaben mit dem ASCII Code

Ein Hash enth�lt keine Buchstaben.

Page 1 of 2