U-Net: Architettura per la Segmentazione di Immagini

U-Net: Architettura per la Segmentazione di Immagini

📌 U-Net: Architettura per la Segmentazione di Immagini

🔍 Introduzione

U-Net è una delle reti neurali più popolari per la segmentazione delle immagini, progettata inizialmente per applicazioni in biomedical imaging. La sua struttura è caratterizzata da un'architettura encoder-decoder con una forma a "U", da cui deriva il nome.

🏗️ Architettura di U-Net

La rete U-Net è composta da tre parti principali:

  • Encoder: comprime l'immagine ed estrae le caratteristiche principali.
  • Decoder: ripristina la dimensione spaziale per generare una segmentazione accurata.
  • Skip Connections: collegano i livelli dell’encoder con il decoder per mantenere i dettagli spaziali.

⚙️ Funzionamento dell'Encoder

L'encoder funziona come una CNN classica, composta da blocchi convoluzionali con:

  • 📌 Convoluzioni per estrarre feature.
  • 📌 Funzioni di attivazione per introdurre non linearità.
  • 📌 Pooling per ridurre la dimensione e aumentare il campo visivo.

🔄 Funzionamento del Decoder

Il decoder ricostruisce l’immagine ridimensionando le feature fino a riportarle alla dimensione originale. Esistono due metodi principali per questo processo:

  • 📌 Layer di Upsampling: utilizza interpolazione bilineare, bicubica o nearest neighbors.
  • 📌 Transposed Convolution: metodo più avanzato che apprende pesi per migliorare la risoluzione

🔄 Transposed Convolution: Come Funzionano?

Le Transposed Convolutions (o deconvoluzioni) sono operazioni utilizzate per aumentare la risoluzione spaziale di una feature map, con l'obiettivo di ricostruire l'immagine originale o di creare una maschera segmentata.

  • ✅ Kernel adattivo: anziché ridurre la dimensione spaziale, ridistribuisce i valori di output in una griglia più ampia.
  • ✅ Apprendimento dei pesi: a differenza delle interpolazioni classiche, la transposed convolution apprende i pesi per una ricostruzione più accurata.
  • ✅ Controllo della dimensione dell’output: tramite parametri di stride e padding, è possibile determinare la grandezza dell’immagine di output.


🔗 Skip Connections

Le skip connections permettono di trasferire i dettagli spaziali direttamente dall’encoder al decoder, migliorando la precisione della segmentazione. Queste connessioni:

  • Preservano informazioni di dettaglio perse durante il downsampling.
  • ✅ Ridimensionano le feature maps e le concatenano con quelle del decoder.
  • ✅ Prevengono il vanishing gradient, rendendo il training più stabile.

🖼️ Vantaggi di U-Net

  • ✅ Ottima segmentazione con pochi dati di training.
  • ✅ Precisione elevata grazie alle skip connections.
  • ✅ Applicazioni in biomedicina, agricoltura, satelliti e altro.

🔄  Losses

  • ✅ Cross Entropy
  • ✅ DICE oppure FOCAL Loss

🎯 Conclusione

La U-Net è una rete potente per la segmentazione di immagini, con una struttura semplice ma efficace. Grazie alle skip connections, riesce a mantenere informazioni di dettaglio e ottenere risultati di alta qualità in diversi settori. 🚀

Commenti

Post popolari in questo blog

SSD (Single Shot MultiBox Detector)

Instance Segmentation: Cos'è e Come Funziona