Visualizzazione post con etichetta Midas. Mostra tutti i post
Visualizzazione post con etichetta Midas. Mostra tutti i post

giovedì 23 dicembre 2021

Confronto Monocular Midas vs Metashape

 Questo e' un semplice confronto da una ricostruzione 3D derivante da una singola immagine effettuata da MiDas e lo stesso oggetto ricostruito da molte immagini mediante MetaShape. Ovviamente la battaglia e'ad armi impari perche' Metashape (usando piu' punti di ripresa) ha il vantaggio della stereoscopia. Inoltre c'e' da dire che le reti sono allenate con soggetti urbani indoor ed outdoor

Affioramento roccioso

In questo caso si osserva che in MiDas i bordi dell'immagine sono in rilievo. Il blocco in aggetto viene ricostruito in modo sostanzialmente corretto

Immagine originale
Metashape

Midas

Immagine da drone
L'immagine da drone e' la piu' complicata per MiDas perche' ha una visione nadirale. Si vede che MiDas non riesce a risolvere in nessuno modo il rilievo tra i due ruscellamenti anche aumentando l'esagerazione verticale

Immagine reale 


Metashape


MiDas (20x verticale)

Midas (100x verticale)

Primo Piano
In questo caso sono risolti tre piani (primo piano, piano intermedio ovvero cartello e sfondo)




mercoledì 22 dicembre 2021

PFM2PLY

Un programmino un Python per convertire le mappe di profondita' di MiDaS dal formato PFM al formato PLY (GitHub)




import utils
import pandas as pd
import numpy as np
from PIL import Image
from plyfile import PlyData, PlyElement

immagine = 'firenze-aerea'
molt = 20

ottico = Image.open(immagine+'.jpeg')
ottico = ottico.convert('RGB')
(data,scale) = utils.read_pfm(immagine+'.pfm')
df = pd.DataFrame(data)

x = np.zeros(ottico.width*ottico.height)
y = np.zeros(ottico.width*ottico.height)
z = np.zeros(ottico.width*ottico.height)
red = np.zeros(ottico.width*ottico.height)
green = np.zeros(ottico.width*ottico.height)
blue = np.zeros(ottico.width*ottico.height)

posizione = 0

for j in range (1,ottico.width):
for k in range (1,ottico.height):
RGB = ottico.getpixel((ottico.width-j,ottico.height-k))
x[posizione] = k
y[posizione] = j
z[posizione] = df.values[k,j]*molt
red[posizione] = RGB[0]
green[posizione] = RGB[1]
blue[posizione] = RGB[2]
posizione = posizione+1

vertices = np.empty(ottico.width*ottico.height, dtype=[('x', 'f4'), ('y', 'f4'), ('z', 'f4'), ('red', 'u1'), ('green', 'u1'), ('blue', 'u1')])
vertices['x'] = x.astype('f4')
vertices['y'] = y.astype('f4')
vertices['z'] = z.astype('f4')
vertices['red'] = red.astype('u1')
vertices['green'] = green.astype('u1')
vertices['blue'] = blue.astype('u1')

ply = PlyData([PlyElement.describe(vertices, 'vertex')], text=False)
ply.write(immagine+".ply")

martedì 21 dicembre 2021

Mappa di profondita' da immagini monoculari

Fino a poco tempo fa per estrarre dati tridimensionali da una immagine fotografica era possibile utilizzare solo immagine stereoscopiche..successivamente e' stato possibile ottenere mappe di profondita' con i laser a luce strutturata ... in ogni caso era necessario utilizzare attrezzatura specifica

Leggendo gli esempi di Keras  ho trovato questo esempio Monocular Depth Estimation che permette da una normale immagine di stimare la profondita' degli oggetti ripresi utilizzando una rete neurale CNN

Immagine originale


Mappa di profondita' generata da Midas (midas_v21)


Mappa di profondita' generata da Midas (complete)


Nonostante diverse prove su Colab il notebook entrava in errore (ho avuto solo un successo) con valori di Nan in loss e val_loss e pensavo di abbandonare quando ho trovato MiDaS

Per prima cosa si deve impostare un Conda Env  (conda activate env_pytorch) con 

conda install pytorch torchvision opencv 
pip install timm

In seguito si copiano di file dei modelli Large e Hybrid nella directory weights (i modelli midas_v21 e midas_v21_small vengnono scaricati in modo automatico)

Si inseriscono poi nella dir input le immagini da processare ed i risultati si troveranno nella dir outpu

Su Apple M1 tutto ha funzionato. Su Ubuntu LTS 18.04 hanno funzionato solo i modello midas_v21

Ho provato ad usare anche il docker senza fortuna

La cosa interessante non e' il PNG che viene generato ma il file .PFM all'interno del quale si trovano in formato binario i valori di distanza in formato float32 (nel PNG ci sono solo 255 classi). Avendo un punto di verita'nell'immagine tali valori possono essere riscalati per ottenere delle distanze metriche

Per leggere il file PFM si puo' utilizzare la funzione read_pfm contenuta nel file utils.py 

======================================================

import utils
(data,scale) = utils.read_pfm('luca.pfm')
print(data)
print(scale)

Sono presenti anche le dir per mobile Android/IOS e Tensorflow ma al momento non sono riuscito a compilarle

Per alcuni test rapidi si puo' utilizzare il notebook python

Debugger integrato ESP32S3

Aggiornamento In realta' il Jtag USB funziona anche sui moduli cinesi Il problema risiede  nell'ID USB della porta Jtag. Nel modulo...