Objekterkennung

04/14/2020 18:23 BlackOperations#1

Hey Leute,

im Internet gibt es viele verschiedene Tutorials und ich wollte euch fragen, welche fandet ihr am besten?
Ich m�chte n�mlich ein Objekt Erkenner programmieren der speziell in Videos Objekte erkennt, aber bei der Flut von Tutorials wei� ich nicht so recht welches sich am besten eignet.
Falls jemand was empfehlen kann, w�rde ich mich sehr freuen.

04/14/2020 19:09 SLPHR#2

Falls jemand was empfehlen kann, w�rde ich mich sehr freuen.

04/15/2020 01:49 Hawkk#3

Quote:

Originally Posted by BlackOperations

Hey Leute,

im Internet gibt es viele verschiedene Tutorials und ich wollte euch fragen, welche fandet ihr am besten?

gib doch mal ein paar Beispiele daf�r :)

04/15/2020 14:46 Kraizy#4

#moved

04/15/2020 19:15 Shadow992#5

Ich k�nnte jetzt ewig darauf antworten, ich machs aber kurz:

1. Was f�r Objekte m�chtest du erkennen?
2. Wie viele und wie schnell?
3. Wie viele Trainingsdaten hast du?
4. ...

Die Fragen laufen alle darauf hinaus, dir dabei zu helfen welche Algorithmen angebracht sind und welche nicht.

Dabei bleibt aber noch die ganz fundamentale Frage �ber:

M�chtest du das selbst programmieren oder m�chtest du eine L�sung, die "einfach funktioniert"?

Wenn dus selbst machen m�chtest, schau dir mal mein (altes) kostenloses E-Book zur Gesichtserkennung an:

[Only registered and activated users can see links. Click Here To Register...]

Ansonsten wenn du etwas m�chtest was "einfach funktioniert" bietet sich Yolo vX an f�r Echtzeit-Erkennung und beliebige Region-CNNs bzw. Mask-CNNs f�r eine "bessere Erkennungsrate".

Wenn du mehr Details lieferst, schreib ich vielleicht auch mehr und detailreicher, aber so k�nnte ich dir das ganze Internet zusammen fassen und darauf hab ich echt keine Lust.

Edit:
Wobei die Codebeispiele in Caffe sind, was nat�rlich semi-gut ist, jetzt wo es dicontinued ist...
Aber als Anf�nger ist es nicht soooo veraltet als dass man es sich net trotzdem mal anschauen k�nnte. Du solltest dich halt nur nicht bis in die tiefen Vorarbeiten von Caffe, sondern danach dann gleich auf Caffe2, PyTorch oder TensorFlow umsteigen.

04/16/2020 09:41 BlackOperations#6

Quote:

Originally Posted by Shadow992

Ich k�nnte jetzt ewig darauf antworten, ich machs aber kurz:

1. Was f�r Objekte m�chtest du erkennen?
2. Wie viele und wie schnell?
3. Wie viele Trainingsdaten hast du?
4. ...

Die Fragen laufen alle darauf hinaus, dir dabei zu helfen welche Algorithmen angebracht sind und welche nicht.

Dabei bleibt aber noch die ganz fundamentale Frage �ber:

M�chtest du das selbst programmieren oder m�chtest du eine L�sung, die "einfach funktioniert"?

Wenn dus selbst machen m�chtest, schau dir mal mein (altes) kostenloses E-Book zur Gesichtserkennung an:

[Only registered and activated users can see links. Click Here To Register...]

Ansonsten wenn du etwas m�chtest was "einfach funktioniert" bietet sich Yolo vX an f�r Echtzeit-Erkennung und beliebige Region-CNNs bzw. Mask-CNNs f�r eine "bessere Erkennungsrate".

Wenn du mehr Details lieferst, schreib ich vielleicht auch mehr und detailreicher, aber so k�nnte ich dir das ganze Internet zusammen fassen und darauf hab ich echt keine Lust.

Edit:
Wobei die Codebeispiele in Caffe sind, was nat�rlich semi-gut ist, jetzt wo es dicontinued ist...
Aber als Anf�nger ist es nicht soooo veraltet als dass man es sich net trotzdem mal anschauen k�nnte. Du solltest dich halt nur nicht bis in die tiefen Vorarbeiten von Caffe, sondern danach dann gleich auf Caffe2, PyTorch oder TensorFlow umsteigen.

Hey Danke f�r deine schnelle Antwort.
Ich m�chte Pferde erkennen und dann deren Koordinaten in der echten Welt berechnen.
Am besten sollte es genau diesem Prinzip gehen: [Only registered and activated users can see links. Click Here To Register...]

Ich habe blo� voll die Probleme mit TensorFlow, habe einen Laptop mit Windows7 von 2012 welcher eine zu alte NVIDIA Grafikkarte hat. CUDA wird also nichts und die CPU hat auch nicht die beste Leistung.

Ansonsten dachte ich, dass ich diese Basis nehme: [Only registered and activated users can see links. Click Here To Register...]
Und einfach den PixelMapper hinzuf�ge um die Koordinaten zu berechnen.
Soll �brigens alles f�r eine Bachelorarbeit gemacht werden, studiere Geod�sie & Geoinformatik.

Was sagst du zu dem pyimagesearch Sachen?

Quote:

Originally Posted by Hawkk

gib doch mal ein paar Beispiele daf�r :)

Nehme an du denkst ich hab mich gar nicht damit befasst und m�chte nun direkt die L�sungen haben.
Habe folgendes probiert:
[Only registered and activated users can see links. Click Here To Register...]
Hatte aber mit Tensorflow und pycocotools schon genug Kopfschmerzen, deswegen lasse ich TensorFlow sein.
Ansonsten ist das Tutorial das beste bis jetzt, aber vielleicht gibt es bessere f�r meine Aufgabe: [Only registered and activated users can see links. Click Here To Register...]

04/16/2020 12:26 Shadow992#7

Quote:

Originally Posted by BlackOperations

Hey Danke f�r deine schnelle Antwort.
Ich m�chte Pferde erkennen und dann deren Koordinaten in der echten Welt berechnen.
Am besten sollte es genau diesem Prinzip gehen: [Only registered and activated users can see links. Click Here To Register...]

Ich habe blo� voll die Probleme mit TensorFlow, habe einen Laptop mit Windows7 von 2012 welcher eine zu alte NVIDIA Grafikkarte hat. CUDA wird also nichts und die CPU hat auch nicht die beste Leistung.

Ansonsten dachte ich, dass ich diese Basis nehme: [Only registered and activated users can see links. Click Here To Register...]
Und einfach den PixelMapper hinzuf�ge um die Koordinaten zu berechnen.
Soll �brigens alles f�r eine Bachelorarbeit gemacht werden, studiere Geod�sie & Geoinformatik.

Was sagst du zu dem pyimagesearch Sachen?

Nehme an du denkst ich hab mich gar nicht damit befasst und m�chte nun direkt die L�sungen haben.
Habe folgendes probiert:
[Only registered and activated users can see links. Click Here To Register...]
Hatte aber mit Tensorflow und pycocotools schon genug Kopfschmerzen, deswegen lasse ich TensorFlow sein.
Ansonsten ist das Tutorial das beste bis jetzt, aber vielleicht gibt es bessere f�r meine Aufgabe: [Only registered and activated users can see links. Click Here To Register...]

Also Tensorflow bzw. deep learning Zeugs l�uft eigentlich meistens ganz ordentlich schnell auf 0815 CPUs, wenns nicht ums trainieren geht. Vermutlich niemals in Echtzeit, aber wenn du nur jedes Xte Frame deep learning nutzt und dazwischen simple Heuristiken, sollte das gut machbar sein.

Aus meiner Sicht macht dein Vorhaben aber echt keinen Sinn. Es gibt praktisch keinen fertigen Tracker f�r dein Anwendungsgebiet und wenn doch dann wirst du um etwas Handarbeit wohl nicht drum rum kommen, also w�rde sich anbieten sich einfach allgemein in das Thema der Objekterkennung einzuarbeiten.

Je nachdem wie schwer die Pferde zu erkennen sind, etc. braucht es auch nicht zwingend Deep Learning. Meistens liefert Adaboost mit sowas wie LBP-Patterns auch ganz gute Ergebnisse, l�uft aber meisten in einem Bruchteil der Zeit und braucht meistens auch nur einen Bruchteill an Trainingsdaten.

W�rde sich also anbieten sich einmal damit zu besch�ftigen. Auch mit opencv allgemein. OpenCV k�nnte f�r deinen Fall eventuell sogar schon genug sein, da braucht man vermutlich gar nicht sowas wie TensorFlow o.�. Auch wenn du im Kopf behalten musst, dass die Algorithmen in der Regel schlechter sind, wenn sie nicht auf Deep Learning basieren.

Aber egal was du nimmst, du solltest dir erst einmal Grundlagen der Mustererkennung aneignen, sonst macht das alles wenig Sinn. Paar Stichw�rter:

Decision Trees, Computer Vision, Object Detection, Adaboost, Local Binary Patern, Histogram of oriented Gradients, ORB keypoints

Das sollte f�r die Grundlagen eigentlich gut reichen. Ansonsten bietet es sich f�r bessere Ergebnisse an alle X Frames ein Deep Learning Model deiner Wahl draufzuklatschen und dann Keypoints extrahieren, die du trackst, um nach X weiteren Frames die mit den Deep learning vorhergesagten Punkten abzugleichen und zu refinen.

Edit:
Wenn du mir nicht glaubst zwecks CPU sollte reichen, kannst auch mal in meinem alten projekt reinschauen, da hab ich auch ne relativ alte Laptop CPU genommen und die Zeiten waren ganz ordentlich (Da ist auch ein Vergleich CPU vs. GPU):

[Only registered and activated users can see links. Click Here To Register...]

04/16/2020 13:17 BlackOperations#8

Quote:

Originally Posted by Shadow992

Also Tensorflow bzw. deep learning Zeugs l�uft eigentlich meistens ganz ordentlich schnell auf 0815 CPUs, wenns nicht ums trainieren geht. Vermutlich niemals in Echtzeit, aber wenn du nur jedes Xte Frame deep learning nutzt und dazwischen simple Heuristiken, sollte das gut machbar sein.

Aus meiner Sicht macht dein Vorhaben aber echt keinen Sinn. Es gibt praktisch keinen fertigen Tracker f�r dein Anwendungsgebiet und wenn doch dann wirst du um etwas Handarbeit wohl nicht drum rum kommen, also w�rde sich anbieten sich einfach allgemein in das Thema der Objekterkennung einzuarbeiten.

Je nachdem wie schwer die Pferde zu erkennen sind, etc. braucht es auch nicht zwingend Deep Learning. Meistens liefert Adaboost mit sowas wie LBP-Patterns auch ganz gute Ergebnisse, l�uft aber meisten in einem Bruchteil der Zeit und braucht meistens auch nur einen Bruchteill an Trainingsdaten.

W�rde sich also anbieten sich einmal damit zu besch�ftigen. Auch mit opencv allgemein. OpenCV k�nnte f�r deinen Fall eventuell sogar schon genug sein, da braucht man vermutlich gar nicht sowas wie TensorFlow o.�. Auch wenn du im Kopf behalten musst, dass die Algorithmen in der Regel schlechter sind, wenn sie nicht auf Deep Learning basieren.

Aber egal was du nimmst, du solltest dir erst einmal Grundlagen der Mustererkennung aneignen, sonst macht das alles wenig Sinn. Paar Stichw�rter:

Decision Trees, Computer Vision, Object Detection, Adaboost, Local Binary Patern, Histogram of oriented Gradients, ORB keypoints

Das sollte f�r die Grundlagen eigentlich gut reichen. Ansonsten bietet es sich f�r bessere Ergebnisse an alle X Frames ein Deep Learning Model deiner Wahl draufzuklatschen und dann Keypoints extrahieren, die du trackst, um nach X weiteren Frames die mit den Deep learning vorhergesagten Punkten abzugleichen und zu refinen.

Edit:
Wenn du mir nicht glaubst zwecks CPU sollte reichen, kannst auch mal in meinem alten projekt reinschauen, da hab ich auch ne relativ alte Laptop CPU genommen und die Zeiten waren ganz ordentlich (Da ist auch ein Vergleich CPU vs. GPU):

[Only registered and activated users can see links. Click Here To Register...]

Danke erstmal f�r deine schnelle Antwort.
Echtzeit ist definitiv kein muss, hauptsache ich kann am Ende durch ein Video die Koordinaten vom Pferd bestimmen und daraus eine Trajektorie berechnen.
Und es gibt unz�hlige Tracker f�r Pferde.
Hier ist meine erster Versuch mit OpenCV:

Problem ist einfach, das hier MobilenetSSD als Detection-Model benutzt wird und ich denke, dass ist nicht das beste.
Werde versuchen andere Modelle anzuwenden, vlt. gibt es dann bessere Ergebnisse.
Die Frage ist halt, inwiefern TensorFlow sich besser eignen w�rde.
Vielleicht wei�t du da besser Bescheid, hast ja jetzt das Video und kannst die Situation besser einsch�tzen.
Also zusammengefasst: es soll ein Pferd erkannt werden und davon soll sp�ter die Trajektorie bestimmt werden -> da muss ich einfach nur Bildkoordinaten in Objektkoordinaten umrechnen und daf�r brauche ich Passpunkte (werde das in einem lokalen Koordinatensystem machen).

Du hast nun noch Adaboost genannt.
Was denkst eignet sich am besten: OpenCV, Tensorflow oder Adaboost?

Danke schonmal im Voraus.

04/16/2020 15:40 Shadow992#9

Quote:

Originally Posted by BlackOperations

Danke erstmal f�r deine schnelle Antwort.
Echtzeit ist definitiv kein muss, hauptsache ich kann am Ende durch ein Video die Koordinaten vom Pferd bestimmen und daraus eine Trajektorie berechnen.
Und es gibt unz�hlige Tracker f�r Pferde.
Hier ist meine erster Versuch mit OpenCV:
[Only registered and activated users can see links. Click Here To Register...]
Problem ist einfach, das hier MobilenetSSD als Detection-Model benutzt wird und ich denke, dass ist nicht das beste.
Werde versuchen andere Modelle anzuwenden, vlt. gibt es dann bessere Ergebnisse.
Die Frage ist halt, inwiefern TensorFlow sich besser eignen w�rde.
Vielleicht wei�t du da besser Bescheid, hast ja jetzt das Video und kannst die Situation besser einsch�tzen.
Also zusammengefasst: es soll ein Pferd erkannt werden und davon soll sp�ter die Trajektorie bestimmt werden -> da muss ich einfach nur Bildkoordinaten in Objektkoordinaten umrechnen und daf�r brauche ich Passpunkte (werde das in einem lokalen Koordinatensystem machen).

Du hast nun noch Adaboost genannt.
Was denkst eignet sich am besten: OpenCV, Tensorflow oder Adaboost?

Danke schonmal im Voraus.

Du wirfst da halt alles durcheinander was man durcheinander werfen kann.

Es gibt keine und wenn dann nur extrem spezielle bzw. veraltete Pferde Tracker. Das was du benutzt ist ein generelles Modell, um Objekte zu erkennen. Das hat jedoch nichts mit tracking zu tun und ist auch kein explizites Pferde-Erkennungs-Tool. Man kann es schon verwenden, klar. Aber die Ergebnisse werden niemals an explizit f�r Pferde-Tracking entwickelte Tools rankommen. Ist halt so wie wenn du mit dem Schraubenzieher isst statt mit Messer und Gabel, geht schon aber ist halt nur semi-effektiv.
OpenCV ist eine allgemein Computer Vision Bibliothek, die unter anderem auch das Ausf�hren von Deep Learning Modellen erlaubt (was du tust). Tensorflow ist eine Bibliothek ausgelegt auf das Konstruieren von statischen mathematischen Graphen, die dann (im best case) auf der GPU laufen und auf die "irgendeine Art" von mathematische Optimierung angewandt wird. Heutzutage kennt TensorFlow aber jeder nur als Deep Learning Plattform. AdaBoost hingegen ist ein konkreter Lern Algorithmus.
MobilenetSSD passt schon. Das ist ganz gut. Aber f�r deine Zwecke ist wie gesagt halt selbst das beste Deep Learning Modell, welches auf Objekterkennung allgemein trainiert wurde niemals so gut wie ein explizites Pferde-Tracking Modell. Die Unterschiede zwischen den verschiedenen Objekterkennung-Modellen d�rften da echt marginal sein. Also w�rde ich da gar nicht gro� Zeit ins Suchen stecken und MobilenetSSD nehmen.

Daher mein Fazit, wie bisher:
Wenn du was deutlich besseres willst, kommst du nicht um selbst mache herum. Ansonsten tut es jedes einigerma�en aktuelle Neuronale Netz. Da es auch total wurst ist ob das Netz in TensorFlow oder OpenCV l�uft, kannst du auch weiterhin bei OpenCV bleiben.

04/16/2020 16:00 BlackOperations#10

Quote:

Originally Posted by Shadow992

Du wirfst da halt alles durcheinander was man durcheinander werfen kann.

Es gibt keine und wenn dann nur extrem spezielle bzw. veraltete Pferde Tracker. Das was du benutzt ist ein generelles Modell, um Objekte zu erkennen. Das hat jedoch nichts mit tracking zu tun und ist auch kein explizites Pferde-Erkennungs-Tool. Man kann es schon verwenden, klar. Aber die Ergebnisse werden niemals an explizit f�r Pferde-Tracking entwickelte Tools rankommen. Ist halt so wie wenn du mit dem Schraubenzieher isst statt mit Messer und Gabel, geht schon aber ist halt nur semi-effektiv.

OpenCV ist eine allgemein Computer Vision Bibliothek, die unter anderem auch das Ausf�hren von Deep Learning Modellen erlaubt (was du tust). Tensorflow ist eine Bibliothek ausgelegt auf das Konstruieren von statischen mathematischen Graphen, die dann (im best case) auf der GPU laufen und auf die "irgendeine Art" von mathematische Optimierung angewandt wird. Heutzutage kennt TensorFlow aber jeder nur als Deep Learning Plattform. AdaBoost hingegen ist ein konkreter Lern Algorithmus.

MobilenetSSD passt schon. Das ist ganz gut. Aber f�r deine Zwecke ist wie gesagt halt selbst das beste Deep Learning Modell, welches auf Objekterkennung allgemein trainiert wurde niemals so gut wie ein explizites Pferde-Tracking Modell. Die Unterschiede zwischen den verschiedenen Objekterkennung-Modellen d�rften da echt marginal sein. Also w�rde ich da gar nicht gro� Zeit ins Suchen stecken und MobilenetSSD nehmen.

Daher mein Fazit, wie bisher:
Wenn du was deutlich besseres willst, kommst du nicht um selbst mache herum. Ansonsten tut es jedes einigerma�en aktuelle Neuronale Netz. Da es auch total wurst ist ob das Netz in TensorFlow oder OpenCV l�uft, kannst du auch weiterhin bei OpenCV bleiben.

Danke f�r deine ausf�hrliche und schnelle Antwort
Zu Punkt 1: Gibt es Literatur zu der Aussage bez�glich dessen, das dies ein generelles Modell ist und deswegen als Beispiel f�r Pferde keine optimalen Ergebnisse gibt?
Punkt 2: Danke f�r die Erkl�rungen.
Punkt 3: Ich denke f�r die Bachelorarbeit ist es ausreichend, wenn ich erkl�re wieso die Ergebnisse nicht gut sind. Es w�rde den Rahmen sprengen ein eigenes Modell zu trainieren. Da du oft von Erkennen und Tracking gesprochen hast. Auf meinem Video wird offensichtlich nur das Pferd erkannt und nicht getrackt. Ich habe vom SORT-Algorithmus gelesen, denkt du er eignet sich in meinem Falle um die Pferde zu tracken?

04/16/2020 16:57 Shadow992#11

Quote:

Originally Posted by BlackOperations

Danke f�r deine ausf�hrliche und schnelle Antwort
Zu Punkt 1: Gibt es Literatur zu der Aussage bez�glich dessen, das dies ein generelles Modell ist und deswegen als Beispiel f�r Pferde keine optimalen Ergebnisse gibt?
Punkt 2: Danke f�r die Erkl�rungen.
Punkt 3: Ich denke f�r die Bachelorarbeit ist es ausreichend, wenn ich erkl�re wieso die Ergebnisse nicht gut sind. Es w�rde den Rahmen sprengen ein eigenes Modell zu trainieren. Da du oft von Erkennen und Tracking gesprochen hast. Auf meinem Video wird offensichtlich nur das Pferd erkannt und nicht getrackt. Ich habe vom SORT-Algorithmus gelesen, denkt du er eignet sich in meinem Falle um die Pferde zu tracken?

1. Du kannst das MobilenetSSD auf das trainieren was du willst. Es sollte also bei deiner Quelle von der du das MobilenetSSD beziehst dabei stehen welcher Trainingsdatensatz benutzt wurde und damit auch welche Klassen/Labels. Aber gegeben der Tatsache, dass ich kein einziges Neuronales Netz kenne, das ausschlie�lich auf Pferde trainiert wurde, bezweifle ich ebenso extrem, dass dieses Model was urspr�nglich auf ImageNet und CIFAR100 angewendet wurde, jetzt nur auf Pferde trainiert sein soll. Halte ich einfach f�r extrem unwahrscheinlich.

3. SORT sagt mir nichts. Aber das Prinzip vom 2D tracking ist relativ simpel. EInfach mit SIFT, ORB o.�. Keypunkte generieren und die Verschiebung von Frame zu Frame berechnen. In 3D ists dasselbe, dabei musst du aber nat�rlich davor die 2D Punkte in 3D Punkte konvertieren.

04/16/2020 18:13 BlackOperations#12

Quote:

Originally Posted by Shadow992

1. Du kannst das MobilenetSSD auf das trainieren was du willst. Es sollte also bei deiner Quelle von der du das MobilenetSSD beziehst dabei stehen welcher Trainingsdatensatz benutzt wurde und damit auch welche Klassen/Labels. Aber gegeben der Tatsache, dass ich kein einziges Neuronales Netz kenne, das ausschlie�lich auf Pferde trainiert wurde, bezweifle ich ebenso extrem, dass dieses Model was urspr�nglich auf ImageNet und CIFAR100 angewendet wurde, jetzt nur auf Pferde trainiert sein soll. Halte ich einfach f�r extrem unwahrscheinlich.

3. SORT sagt mir nichts. Aber das Prinzip vom 2D tracking ist relativ simpel. EInfach mit SIFT, ORB o.�. Keypunkte generieren und die Verschiebung von Frame zu Frame berechnen. In 3D ists dasselbe, dabei musst du aber nat�rlich davor die 2D Punkte in 3D Punkte konvertieren.

Mit SORT meine ich das hier: [Only registered and activated users can see links. Click Here To Register...]
Einfach ein Tracker und die Berechnung der Koordinaten w�rde so gehen:
[Only registered and activated users can see links. Click Here To Register...]
Also quasi Bildkoordinaten durch Passpunkte in Objektkoordinaten umwandeln.

Ich komm etwas durcheinander bei deiner Erkl�rung zu 1.
Bei MobilenetSSD wird klar gesagt, dass Pferde als Klasse vorhanden sind.
Ich habe nie behauptet, dass es nur f�r Pferde trainiert ist.
Wollte nur eine Quelle haben, wo evtl. steht das dadurch das es nicht extra f�r Pferde trainiert ist, dadurch diese schlechter erkennt. Aber mittlerweile habe ich Zweifel das bei dem Winkel meines Videos und der Distanz �berhaupt ein Modell die Pferde erkennen w�rde.

04/16/2020 19:06 Shadow992#13

Quote:

Originally Posted by BlackOperations

Mit SORT meine ich das hier: [Only registered and activated users can see links. Click Here To Register...]
Einfach ein Tracker und die Berechnung der Koordinaten w�rde so gehen:
[Only registered and activated users can see links. Click Here To Register...]
Also quasi Bildkoordinaten durch Passpunkte in Objektkoordinaten umwandeln.

Ich komm etwas durcheinander bei deiner Erkl�rung zu 1.
Bei MobilenetSSD wird klar gesagt, dass Pferde als Klasse vorhanden sind.
Ich habe nie behauptet, dass es nur f�r Pferde trainiert ist.
Wollte nur eine Quelle haben, wo evtl. steht das dadurch das es nicht extra f�r Pferde trainiert ist, dadurch diese schlechter erkennt. Aber mittlerweile habe ich Zweifel das bei dem Winkel meines Videos und der Distanz �berhaupt ein Modell die Pferde erkennen w�rde.

Ah ok mein Fehler.

Ja SORT sieht ganz gut aus f�r deinen Anwendungsfall, kann man schon nehmen ist aber halt auch weit weg von einer sehr guten L�sung. Aber sch�n simpel und kurz.

Genau das bezweifle ich halt such, dass irgendein Standard-Modell wirklich jemals gut genug sein wird.

Das mit dem "Literatur dazu, dass Spezialisierung besser funktioniert als Generalisierung in Form von mehreren Klassen vs. eine Klasse" ist schwierig. Dazu gibt es vermutlich keine Literatur einfach weil es sowohl intuitiv ist als auch mathematisch absolut logisch. Wobei Deep Learning halt so ein Bereich ist, der allgemein manchmal komisch ist, was Zusammenh�nge angeht. Also das das da vermutlich eher ein schwaches Argument.

Aber die Grundidee ist warum das so sein sollte ist recht easy:
Gegeben einer festen Anzahl an "Neuronen" (also die kleinste logische Einheiten in einem Neuronalem Netz), wird das Netz auch nur begrenzte Mengen speichern k�nnen. Wenn man diese begrenzte Speichermenge an "Wissen" auf 1000 Klassen aufteilt, ist logischerweise jede Klasse mit maximal 1/1000 in Form von Wissen vertreten.

Ist vergleichbar mitm Menschen, ein Mensch, der 1000 verschiedene F�cher gleichzeitig macht, wird wohl nicht so schnell Experte in dem Gebiet der Quantenphysik sein.

Jetzt kann man sber argumentieren (und das ist gerade auch der Punkt warum ich etwas l�nger nachgedacht habe): Je mehr verschiedene Objekte ein Netz kennt, desto mehr "einfacher" kann es ein Pferd von einem Nicht-Pferd unterscheiden.

Eventuell ist die Aussage sogar richtig f�r wenige Klassen vs. Nur eine Klasse. Aber meine Erfahrung sagt mir, dass das definitiv nicht mehr der Fall ist bei 1000 Klassen vs. einer Klasse.

Aber google mal eventuell spuckt google doch was aus, auch wenn mir keine derartige Literatur bekannt w�re. Es wird in der Szene einfach still schweigend aktzeptiert, dass Spezialisierung immer Generalisierung schl�gt.

05/16/2020 19:25 CoinLooting#14

Also was ich dir empfehlen kann ist OpenCV f�r Python. Damit sind dir keine Grenzen gesetzt. Du m�sstest ja nicht mal die Pferde an sich erkennen, dass w�rde schon reichen wenn du die Farbe erkennen w�rdest.

Im Internet findest du dazu viele hilfreiche Tutorials. Python ist auch relativ leicht und schnell zu lernen.

Also Google mal einfach nach :

OpenCV color detection

oder auch

OpenCV template matching

05/27/2020 11:29 Sukai�#15

So wie ich dich verstanden habe, m�chtest du folgendes:
1. Pferd auf einem Frame erkennen (Bestimmung der Bounding Box)
2. Bildkoordinaten -> Objektkoordinaten (2D -> 3D)

1. Punkt:
Dazu hat der Kollege schon einiges vorgeschlagen. Im Grunde machst du eine Objekt Erkennung ([Only registered and activated users can see links. Click Here To Register...]).
Im Grunde kannst du das in vielen verschiedenen Varianten l�sen. Heutzutage sind Deep Learning Methoden hype. Um einen DL Ansatz zu realisieren, musst du ein Netzwerk selbst trainieren oder ein schon trainiertes Modell nutzen. Netzwerke welche genutzt werden k�nnen sind: YOLO, RCNN (SORT basiert darauf), SSD (MobileNetSSD ist nur eine Variante), .... Da es um eine Bachelorarbeit geht, empfehle ich dir nicht sehr viel arbeit in die Implementierung zu stecken. Meistens reicht eine fertige Implementierung, welche du evaluierst. Als Trainingsdatensatz k�nntest du ([Only registered and activated users can see links. Click Here To Register...]) nutzen.

Eine andere Variante w�re, du bestimmt am anfang die Position des Pferdes selbst. Mithilfe von Object Tracking, verfolgst du nur das Pferd. Der Vorteil an diesen Ansatz ist es, dass du kein Netzwerk trainieren musst. Eine M�glichkeit dazu w�re CamSHIFT

2. Punkt:
Mithilfe der Kamera Position und anderen Informationen, kannst du deine Koordinaten in 3D Koordinaten umwandeln. [Only registered and activated users can see links. Click Here To Register...]

PS: Ich denke mal du bist fast mit deiner Bachelorarbeit fertig, da der Thread schon 1 Monat alt ist. Ich hoffe du hast deine L�sung gefunden!