Threads auf Arbeitsspeicher auslagern

Page 1 of 4

03/23/2016 21:00 Waller66#1

Hallo wollte mal Fragen ob Threads in C++ zwangsl�ufig die CPU benutzen m�ssen, will gro�e Datenmengen verarbeiten und es w�re nett wenn man das irgendwie beschleunigen k�nnte :)

wie bekomme ich die schnellste bearbeitung hin ? (au�er weglassen von redundanten aktionen)

Danke im vorraus :*

03/23/2016 22:41 warfley#2

Quote:

Originally Posted by Waller66

Hallo wollte mal Fragen ob Threads in C++ zwangsl�ufig die CPU benutzen m�ssen, will gro�e Datenmengen verarbeiten und es w�re nett wenn man das irgendwie beschleunigen k�nnte :)

Nein du kannst z.B. mit Nvidia CUDA auch die GPU verwenden die deutlich besser parallelisieren kann

Quote:

Originally Posted by Waller66

wie bekomme ich die schnellste bearbeitung hin ? (au�er weglassen von redundanten Aktionen)

Kommt drauf an, du k�nntest einen Algorithmus mit besserer asymptotischer Laufzeit verwenden, du kannst deinen Code auch nat�rlich optimieren durch effizientere Funktionen, und das weglassen von aufwendigen mitteln (Komfort Einbu�en, z.B. c statt C++), f�r konstante laufzeitverbesserung. Du kannst mehr parallelisieren (siehe oben mit z.B. GPU), du k�nntest eine andere Programmiersprache nehmen (z.B. Fortran). Aber ohne code kann ich dir hier viel erz�hlen

03/24/2016 01:06 Shadow992#3

Quote:

Originally Posted by warfley

Nein du kannst z.B. mit Nvidia CUDA auch die GPU verwenden die deutlich besser parallelisieren kann

Kommt drauf an, du k�nntest einen Algorithmus mit besserer asymptotischer Laufzeit verwenden, du kannst deinen Code auch nat�rlich optimieren durch effizientere Funktionen, und das weglassen von aufwendigen mitteln (Komfort Einbu�en, z.B. c statt C++), f�r konstante laufzeitverbesserung. Du kannst mehr parallelisieren (siehe oben mit z.B. GPU), du k�nntest eine andere Programmiersprache nehmen (z.B. Fortran). Aber ohne code kann ich dir hier viel erz�hlen

Wichtig zu erw�hnen:
Wenn du keine NVIDIA-GPU hast, ist OpenCl das Mittel deiner Wahl. Allgemein empfehle ich dir eher OpenCl, das ist zwar in Details schwieriger, aber l�uft nicht nur f�r GPUs sondern auch CPUs und �hnliches. Au�erdem ist es ein (mittlerweile) gut etablierter Standard f�r etliche Systeme (selbst Smartphone-GPUs unterst�tzen fast unver�nderten OpenCl-Code).

Nichts desto trotz wage ich doch sehr an deinem Algorithmus zur Konvertierung zu zweifeln. Wenn man bedenkt, dass ganze Compiler einen Eingabe-Code (von manchml einigen MBs) in optimierten Maschinencode �bersetzen k�nnen und zwar in wenigen Sekunden bis einigen Hundert Millisekunden, dann muss deine Methode irgendetwas falsch machen und damit meine ich nicht "nur" unn�tige (de-)allokationen oder kein Funktionsinlining bzw If-Kaskaden anstatt von Switch/Case. Hier scheint mir dass du mit solchen kleinen Optimierungen sicher nicht genug rausholst, um die Zeit akzeptabel zu machen.

Aber auch OpenCl erscheint mir wie mit Panzern auf Ameisen zu schie�en. Abgesehen davon sind GPUs miserabel beim Sprungbefehl ausf�hren, das hei�t eine Zerteilung von Strings auf der GPU, was sehr oftmit vielen ifs verbunden ist, d�rfte ebenso langsam (vielleicht sogar langsamer) sein wie die CPU-Version.

Daher solltest du lieber deinen Code teilen, damit wir dir einen besseren/anderen Algorithmus vorschlagen k�nnen und vor allem bleibt die Frage: Wie gro� sind die Datenmengen? Und begrenzt wirklich die CPU? In vielen F�llen begrenzt nicht die CPU sondern die Bus-Geschwindigkeit bzw. die Ram-Lese/Schreib-Geschwindigkeit.

03/24/2016 06:39 Waller66#4

danke f�r die infos ne ich w�rde den split und das f�llen der felder per cpu machen wollen und dann das gr��ere rechnen per gpu. vielen dank f�r den ganzen input :)

Quote:

Originally Posted by Shadow992

Daher solltest du lieber deinen Code teilen, damit wir dir einen besseren/anderen Algorithmus vorschlagen k�nnen und vor allem bleibt die Frage: Wie gro� sind die Datenmengen? Und begrenzt wirklich die CPU? In vielen F�llen begrenzt nicht die CPU sondern die Bus-Geschwindigkeit bzw. die Ram-Lese/Schreib-Geschwindigkeit.

Multi Threading Analysis, so 1.5 gb zum lesen. Ich w�rde das so machen der soll n threads aufmachen die analysieren und einen der liest und die anderen greifen nur auf die ergebnisse von dem lese thread zu, sodass die anderen threads solang wie m�glich kombinationen durch gehen bis weitere array felder zum verarbeiten der infos da sind.

macht if oder switch case nen unterschied beim speed, sry habe noch nie auf der ebene gearbeitet.

03/24/2016 12:19 Shadow992#5

Quote:

Originally Posted by Waller66

danke f�r die infos ne ich w�rde den split und das f�llen der felder per cpu machen wollen und dann das gr��ere rechnen per gpu. vielen dank f�r den ganzen input :)

Multi Threading Analysis, so 1.5 gb zum lesen. Ich w�rde das so machen der soll n threads aufmachen die analysieren und einen der liest und die anderen greifen nur auf die ergebnisse von dem lese thread zu, sodass die anderen threads solang wie m�glich kombinationen durch gehen bis weitere array felder zum verarbeiten der infos da sind.

macht if oder switch case nen unterschied beim speed, sry habe noch nie auf der ebene gearbeitet.

Wenn "Analysis" wirklich f�r Mathematik Analysis steht und du mit vektoren/matrizen und sehr wenigen ifs/whiles/etc. arbeiten musst, dann d�rfte OpenCl/CUDA doch einen enormen boost bringen.

Wenn Analysis f�r "analysieren von Texten" o.�. steht, dann kannste die GPU entg�ltig vergessen. Denn darin ist die GPU wirklich mehr als miserabel.

Also was genau ist Analysis bei dir bzw. was willst du konkret machen? Texte aufsplitten? Formeln berechnen? ...

Prinzipiell gibt es zwei sinnvolle Aufteilungen f�r die Parallelisierung:
Single Data Multiple Instruction: Jeder Thread bekommt nur einen kleinen Teil der Eingabedaten, muss darauf aber lange/aufwendige Berechnungen ausf�hren.
Multiple Data Single Instruktion: Ein Thread macht genau eine Aufgabe (vergleichbar mit Flie�bandarbeit).

Alles in allem is ohne gro�e Optimierung meistens SDMI schneller, denn ein Datenset l�sst sich normalerweise easy in 4-16 Teile splitten (je nach CPU) mit der dann jeder Kern machen kann was er will. Damit erreicht man dann auch fast 400%-1600% (je nach CPU) SpeedUp, obwohl es ja immer Overhead bei Kommunikation o.�. gibt.

Das hei�t lass lieber von der Idee ab das Ganze als Flie�band zu machen und teile deine Texte in 4-16 gleich gro�e Teile, wobei jeder Thread sein eigens S�ppchen kocht.

Aber alles in allem w�re es praktisch Details zu wissen, damit wir dir konkrete Ideen/Pseudocode liefern k�nnen.

Ifs vs Switch
Switch ist in manchen Umst�nden nichts anderes als viele Ifs, manchmal l�sst sich das aber auch (vom Compiler) in eine Sprungtabelle oder bin�re Suche umwandeln, dann ist es schneller als der naive If-Ansatz.

03/24/2016 12:52 Waller66#6

Alles klar, ne mit analysis meinte ich einfach nur rechnen mit arrayfeldern, geht aber auch durch einige switch case bedingungen. weil das rechnen immer bedingt wird, aber einige davon k�nnte ich an den lese prozess h�ngen.

pro durchgang m�sste der thread trotzdem noch so min 5- max 20 cases durchlaufen, dann doch lieber cpu lassen ?

will irgendwie die gpu mit nutzen k�nnen :( sonst ist mein ansatz zwar gut bringt aber mir vtl zu wenig sodas sich der aufwand nicht lohnt.

ist es den leicht alle cpu kerne arbeiten zulassen, gibt es da irgendwie mittel und wege das leicht zu gestalten, bin noch recht neu in c++

03/24/2016 14:13 Shadow992#7

Quote:

Originally Posted by Waller66

Alles klar, ne mit analysis meinte ich einfach nur rechnen mit arrayfeldern, geht aber auch durch einige switch case bedingungen. weil das rechnen immer bedingt wird, aber einige davon k�nnte ich an den lese prozess h�ngen.

pro durchgang m�sste der thread trotzdem noch so min 5- max 20 cases durchlaufen, dann doch lieber cpu lassen ?

will irgendwie die gpu mit nutzen k�nnen :( sonst ist mein ansatz zwar gut bringt aber mir vtl zu wenig sodas sich der aufwand nicht lohnt.

ist es den leicht alle cpu kerne arbeiten zulassen, gibt es da irgendwie mittel und wege das leicht zu gestalten, bin noch recht neu in c++

Poste doch mal deinen Code/Details oder wenn du den Code nich teilen willst, umschreibe es mit Pseudo-Code, sonst k�nnen wir da viel philosophieren und raten...

03/24/2016 14:30 Waller66#8

wie mache ich die kommunikation zwischen den threads, Pseudo-Code m��ig ist es doch beschrieben. geht in dem nicht lese sondern rechne prozess noch 5-20 if bedingungen durch bevor der rechnet. das soll 80% oder mehr der leistung ausmachen und dann die file nach und nach laden. sodass die rechne threads immer besch�ftigt sind und nur darauf warten wenn sie fertig sind (weil sie etwas schneller sind) ob der lese thread neue daten bereit gestellt hat in den arrays.

03/24/2016 15:41 Shadow992#9

Quote:

Originally Posted by Waller66

wie mache ich die kommunikation zwischen den threads, Pseudo-Code m��ig ist es doch beschrieben. geht in dem nicht lese sondern rechne prozess noch 5-20 if bedingungen durch bevor der rechnet. das soll 80% oder mehr der leistung ausmachen und dann die file nach und nach laden. sodass die rechne threads immer besch�ftigt sind und nur darauf warten wenn sie fertig sind (weil sie etwas schneller sind) ob der lese thread neue daten bereit gestellt hat in den arrays.

Naja es w�re wichtig zu wissen was genau deine Eingabe-Daten sind und was genau du als Ausgabe erwartest.
Wenn du es nicht "irgendeinem bekannten" Verfahren zuordnen kannst, w�re eine Umschreibung ala

Code:

Func calculatePart1(int* array)
   if ...
    // Add always 3 array-entries up to one entry and push it to newArray
  EndIf

  int someValue=calculataPart2(newArray)
  return someValue
EndFunc

Func calculatePart2(int* array)
   // calculate StandardDeviation
   // ...
   return standardDevArray
EndFunc

Sehr hilfreich, denn "5-20 Ifs" kann viel sein. Es k�nnte etwas sein wie

Code:

std::string str= ... // some big string
if ( str.length>1000 && str[0]!='A')
{

}

Dieses If w�re praktisch unm�glich "sinnvoll" auf die GPU zu bringen (mit sinnvoll meine ich einen entsprechenden SpeedUp zu generieren).

Dagegen diese if ist perfekt geeignet f�r die GPU:

Code:

float* array;
if ( Mean(array)<10 )
{

}

da sie super parallelisierbar ist mit OpenCl:

Code:

__kernel void main(__global const float *src, __global float* mean, __local srcSize)
{
   int globalSize=get_global_size(0);
   float count=0;
   float localMean=0.0;
   int tidOrig = get_global_id(0)

   for(int tid = tidOrig;tid<srcSize;tid+=globalSize)
   {
       localMean+=src[tid];
       count++;
   }
   mean[tidOrig]=localMean/count;
}

Anschlie�end muss die CPU nur noch �ber rund 200-1000 Werte iterieren und aufsummieren. Aber es muss angemerkt werden, dass sich nur ein SpeedUp bei entsprechend vielen Werten ergibt (mehreren Millionen Werten), sonst limitiert der Bus/der Overhead und man kommt praktisch bei 0 oder einem sehr kleinen SpedUp raus.

MultiThreading in C++11 ist relativ einfach. Kommunizieren k�nnen die Threads "einfach" �ber gemeinsame Speicherbereiche/globale variablen.

03/25/2016 09:06 Waller66#10

3,12 mio :) und vielen vielen dank genau das beantwortet was ich wissen wollte, wie immer top :) Shadow992.op=true

aber eine frage habe ich noch, ist es redundant wenn man in funktionen immer variablen neu erzeugt oder sollten einmal fix global erzeugt werden, in dem bereich geschwindigkeit kenne ich mich �berhaupt nicht aus :/ :D bislang hatte ich noch nicht so gro�e projekte.

oder zb sowas :
double blub = numericUpDown1.value; // die variable ist doch schon durch die form drin , ist quasi nichts an speicher aber unn�tig das dann noch in eine weitere variable zu schreiben oder ?

und ich stocke irgendwie noch in der �berlegung wie ich den lese thread angleiche an die rechnen threads. sollte der immer fix eine gewisse menge laden, rechnen,laden rechnen oder durch gehend lesen und das array in der laufzeit der thread mit daten f�llen, aber ich glaub das gibt irgendwie probleme

03/25/2016 13:09 Shadow992#11

Quote:

Originally Posted by Waller66

3,12 mio :) und vielen vielen dank genau das beantwortet was ich wissen wollte, wie immer top :) Shadow992.op=true

aber eine frage habe ich noch, ist es redundant wenn man in funktionen immer variablen neu erzeugt oder sollten einmal fix global erzeugt werden, in dem bereich geschwindigkeit kenne ich mich �berhaupt nicht aus :/ :D bislang hatte ich noch nicht so gro�e projekte.

oder zb sowas :
double blub = numericUpDown1.value; // die variable ist doch schon durch die form drin , ist quasi nichts an speicher aber unn�tig das dann noch in eine weitere variable zu schreiben oder ?

Das sind Mikro-Optimierungen, die dir praktisch jeder Compiler abnimmt. So viel wie ich mitbekommen habe macht dir GNU z.B. automatisch (ab o1 glaub ich sogar schon) aus dem:

Code:

for (int i=0;i<100;i++)
{
  double d=0;
  // mache was mit d
}

Das hier:

Code:

double d;
for (int i=0;i<100;i++) 
{
  d=0;
  // mache was mit d
}

Also an solchen Sachen solltest du echt sparen. Schreib den Code so wie er f�r dich am verst�ndlichsten ist und der Compiler wird dir jedemenge "verzeihen" und trotzdem das Schnellste draus machen.

Wenn es um Speed geht und man Algorithmen nicht ver�ndern/beschleunigen kann, dann sollte man haupts�chlich nur in 3 Richtungen optimieren (wenn �berhaupt...):

1. Einen eigenen Allokation-Helper machen, der new/delete ersetzt. Dieser Helper holt sich immer gleich einige MB an Speicher und zerteilt diesen Speicher dann bei jedem "new" in das entsprechende Objekt bzw. bei "delete" markiert es einen Bereich wieder als "verwendbar".
Dadurch spart man sich die endlosen Wege �bers Betriebssystem (bei new/delete) und kann so schon deutlich Geschwindigkeit gut machen.

2. std::string durch char* ersetzen (das lohnt sich vor allem wenn man den String eh Zeichenweise durchgehen muss und kaum std::string-Methoden verwendet)

3. Cache-optimiert auf den Speicher zugreifen. Das hei�t alle Werte, die nahe beieinander liegen(vor allem in gro�en Arrays) sollen auch nahe beieinander verwendet werden.
Gut:

Code:

char* str = new char[100001];
for(i = 0; i<100000; i++)
{
  if (str[i] == 'A' && str[i+1]=='B')
  {
    // ...
  }
}

Schlecht:

Code:

char* str = new char[100001];
for(i = 0; i<50000; i++)
{
  if (str[i] == 'A' && str[i*2]=='B')
  {
    // ...
  }
}

Die restlichen Optimierungen, die es noch so gibt, bringen nur selten genug SpeedUp als dass es sich lohnen w�rde, gro� Zeit in das unleserlich machen von Code zuinvestieren.
Vorausgesetzt nat�rlich, dass man die " Standard-Optimierungen" wie Doppelte-Berechnungen, map statt vector (wenn man oft Werte suchen muss), usw. schon angewendet hat.

Edit:
Der Lese-Thread sollte entweder durchgehend auch lesen (dann braucht es aber eine Art von Synchronidation z.B. �ber Mutex oder ein entsprechendes "Finished"-Bit o.�.) oder einmal komplett alles lesen wobei ich zu komplett lesen tendiere, denn 1,5GB sind extrem schnell in den RAM geladen. Ansonsten, wenn der Speicher wirklich knapp wird, kannst du es nat�rlich auch st�ckweise einlesen, wobei die St�cke dann schon ziemlich gro� sein sollten.

03/25/2016 15:27 Waller66#12

ist es m�glich �ber eine form eine c++ datei oder code zu laden und den dann aus zu f�hren wenn ja wie , ich hasse c++ f�r den komplexeren syntax aber liebe die einsatz m�glichkeiten :P

ist sowas per gpu auslagerbar ?
ist nur rechnen mit zahlen werten

Code:

 void blav(int s,int *pa,double *p) // vtl anderer datentyp als string
	  {
		 switch(s)
		 {
		 case 1: //
			 if(TTCOunter==0)  TT[TTCOunter] = TT[sizeof(TT)] + (p- TT[sizeof(TT)])/pa;
			 else TT[TTCOunter] = TT[TTCOunter-1] + (p-TT[TTCOunter-1])/pa;
			 break;
		 // 4 cases
		 }

soll ich solche ifs einfach in mehre switches dann verschachteln

03/25/2016 16:34 Shadow992#13

Quote:
Originally Posted by Waller66
ist es m�glich �ber eine form eine c++ datei oder code zu laden und den dann aus zu f�hren wenn ja wie , ich hasse c++ f�r den komplexeren syntax aber liebe die einsatz m�glichkeiten :P

ist sowas per gpu auslagerbar ?
ist nur rechnen mit zahlen werten
Code:
 void blav(int s,int *pa,double *p) // vtl anderer datentyp als string
	  {
		 switch(s)
		 {
		 case 1: //
			 if(TTCOunter==0)  TT[TTCOunter] = TT[sizeof(TT)] + (p- TT[sizeof(TT)])/pa;
			 else TT[TTCOunter] = TT[TTCOunter-1] + (p-TT[TTCOunter-1])/pa;
			 break;
		 // 4 cases
		 }
soll ich solche ifs einfach in mehre switches dann verschachteln

Form in C++:
Ist gar nicht so schwer, aber du kannst nat�rlich auch eine DLL erstellen oder eine Exe-File, die du dann aufrufst.

Code auf GPU:
Theoretisch schon vorallem weil mir die if nicht unbedingt n�tig aussieht.

Code allgemein:
Bist du sicher dass dein Code wirklich zu 100% richtig ist und das macht was du willst?
Die Verwendung von SizeOf in Kombination mit dem Array-Zugriff sieht mir �userst suspekt aus. Auch dass du p als Pointer deklarierst, aber "nur" mit ihm rechnest als w�re es ein normaler int sieht komisch aus (dasselbe gilt f�r pa).

If vs Switch:
Bei wenigen Cases in Switch wird der Compiler dir wahrscheinlich eh ne If-Kaskade erstellen, daher ist das relativ witzlos f�r ifs mit weniger als 3 Elses (bzw. Else ifs).

03/25/2016 16:48 Waller66#14

zu dem bsp code danke bin noch nicht so im syntax drin, hatte nen array pointer use als vergleich genommen und cool danke f�r die ganzen infos

sizeof wird benutzt weil er das array von links nach rechts f�llt und dann vorne wieder �berschreibt wenn der counter f�r die position des aktuellen werts kleiner ist muss der den halt zur�ck setzen und er benutzt dann wenn auf 0 der
aktuelle wert ist , ist bei sizeof(ar) der vorherige wert auf den er zugreifen muss, normal beim aktueller position -1

und ich meine c++ code aus einer datei lesen und den dann auf die daten anwenden. also der soll den code die funktion ausf�hren, oder meinst du das ich nur die c++ datei zu ner dll irgendwie per befehl kompelieren lasse und dann die dll immer aufrufe.

03/25/2016 17:50 Shadow992#15

Quote:

Originally Posted by Waller66

zu dem bsp code danke bin noch nicht so im syntax drin, hatte nen array pointer use als vergleich genommen und cool danke f�r die ganzen infos

sizeof wird benutzt weil er das array von links nach rechts f�llt und dann vorne wieder �berschreibt wenn der counter f�r die position des aktuellen werts kleiner ist muss der den halt zur�ck setzen und er benutzt dann wenn auf 0 der
aktuelle wert ist , ist bei sizeof(ar) der vorherige wert auf den er zugreifen muss, normal beim aktueller position -1

und ich meine c++ code aus einer datei lesen und den dann auf die daten anwenden. also der soll den code die funktion ausf�hren, oder meinst du das ich nur die c++ datei zu ner dll irgendwie per befehl kompelieren lasse und dann die dll immer aufrufe.

Die C++ Datei/Funktionen zu ner DLL kompilieren und dann von C#/AutoIt/Python/whatever aus aufrufen.

Page 1 of 4

Last »