Che cos'è Deep Learning AF: come funziona l'autofocus basato su AI di Canon?

Canon ha fatto molto rumore sul suo nuovo sistema Deep Learning AF, che si trova al centro dell'ultima fotocamera professionale di punta del produttore. Sembra incredibilmente intelligente, ma ci sono molte domande: cos'è il Deep Learning? Chi insegna? Il sistema impara mentre scatti? È davvero intelligenza artificiale in una fotocamera? In realtà migliora la messa a fuoco automatica?

Se hai letto la nostra recensione su Canon EOS-1D X Mark III, saprai che la risposta all'ultima domanda è un clamoroso sì. Per quanto riguarda le risposte alle altre domande su Deep Learning AF, prendi un drink e uno spuntino e continua a leggere …

La meccanica dell'autofocus della Canon EOS-1D X Mark III è incredibilmente intelligente e supporta due sistemi AF individuali. Il primo è il sistema ottico, che scatta 16 fotogrammi al secondo attraverso il mirino, utilizzando un sensore di misurazione da 400.000 pixel in combinazione con un processore Digic 8 dedicato, per un AF a 191 punti in grado di tracciare il viso.

Poi c'è il sistema Live View, in grado di scattare 20 fotogrammi al secondo, impiegando tutti i 20,1 milioni di pixel del sensore di immagine combinato con il nuovo processore Digic X, per 3.869 punti CMOS Dual Pixel in grado di eseguire il rilevamento completo dell'occhio AF.

Ad alimentare entrambi questi sistemi è la tecnologia Canon EOS iTR AFX, l'ultima iterazione del suo Intelligent Tracking and Recognition Auto Focus, che ha debuttato nella EOS-1D X originale (e successivamente è arrivata alla famiglia 7D Mark II e 5D). E sepolto all'interno dei suoi circuiti c'è l'algoritmo di Deep Learning.

Il deep learning NON è la stessa cosa dell'intelligenza artificiale

Prima di tutto, è importante chiarire che il Deep Learning non deve essere confuso con l'intelligenza artificiale (AI). Un sistema di intelligenza artificiale è qualcosa che è in uno stato di sviluppo continuo. Il deep learning, o machine learning, è un sottoinsieme dell'IA.

A differenza della vera intelligenza artificiale, il Deep Learning è un processo chiuso. È un algoritmo di pre-assemblaggio che consente all'architettura della telecamera di insegnarsi essenzialmente da sola, molto più rapidamente di quanto potrebbe essere programmato manualmente dagli ingegneri umani. Una volta che questo apprendimento è stato completato, viene bloccato e caricato nella fotocamera.

Da quel momento non è più possibile imparare; nonostante il nome - e Deep Learning è il nome della tecnologia, non una descrizione del processo - la fotocamera non apprende costantemente e non migliorerà più con le riprese (anzi, un vero sistema di intelligenza artificiale apprenderebbe altrettanti delle tue cattive abitudini come farebbero le tue buone abitudini!).

"È stato insegnato", spiega Mike Burnhill, responsabile del supporto tecnico per Canon Europe. "Lo metti in un computer, crea l'algoritmo che viene quindi caricato nella fotocamera. Quindi è diverso dall'intelligenza artificiale: l'IA è un apprendimento continuo; l'apprendimento profondo è fondamentalmente, si insegna da solo e ti dà un risultato finale che viene poi caricato nella fotocamera. "

Il che fa sorgere la domanda: con così tante aziende che parlano di funzionalità basate sull'intelligenza artificiale, una fotocamera è effettivamente in grado di supportare l'intelligenza artificiale?

"La potenza di elaborazione per eseguire una vera intelligenza artificiale non è realizzabile in una fotocamera", afferma Burnhill. "Se vuoi farlo, ci sono telefoni, ma i dati non sono nel tuo telefono, sono nella Silicon Valley. È lì che si trova il sistema AI. È solo che la tua connessione telefonica si sta connettendo ad esso - non è qui, è lì (in il cloud), perché hai bisogno di un server. Potremmo fare una videocamera, ma ti trascineresti sempre dietro un gigantesco flight case. "

Come si insegna il Deep Learning?

Quindi, l'algoritmo di Deep Learning insegna da solo, ma da dove apprende effettivamente? La risposta, in parole povere, è "dal meglio".

"Canon ha collaborato con le nostre agenzie", ci dice Burnhill. "Abbiamo ricevuto fondamentalmente l'accesso all'intero database di immagini della fotografia sportiva, da tutte le principali agenzie, abbiamo lavorato con i nostri ambasciatori che fotografano sport e ci hanno fornito le loro immagini di diversi soggetti, e questo ci ha permesso di insegnare a questo sistema AF come riconoscere persone che praticano sport. "

Lo sport, ovviamente, è il metodo di insegnamento mirato perché la Canon EOS-1D X Mark III è principalmente una fotocamera sportiva. Il problema è che, che si tratti di un giocatore di basket che guarda lontano dalla telecamera, di uno sciatore che indossa occhiali protettivi o di un pilota di Formula Uno che indossa un casco, le persone che praticano sport hanno spesso i volti oscurati, il che significa che il tradizionale rilevamento del viso o persino degli occhi non lo fa t funziona e la fotocamera si bloccherà invece su cose come i numeri sull'uniforme di un giocatore.

Dando all'algoritmo di Deep Learning l'accesso a una vasta libreria di immagini, di tutto, dalle ginnaste capovolte ai giocatori di hockey che indossano pastiglie e caschi, è in grado di apprendere e differenziare la forma umana in una varietà infinita di situazioni - ed è in definitiva in grado di per eseguire questo 'rilevamento della testa', in modo che anche se il viso della persona non è visibile, la testa è sempre il punto principale di messa a fuoco.

"Il deep learning è fondamentalmente che ci sono immagini, crei una serie di regole in base alle quali apprendere, e poi se ne va e crea il proprio algoritmo basato", continua Burnhill. "Quindi imposti i parametri di come dovrebbe apparire la persona, dici 'Ecco la persona', poi analizza tutte le immagini delle persone e dice: 'Questa è una persona', 'Questa è una persona'. passa attraverso milioni di immagini in un periodo di tempo e crea quel database, e impara da solo ".

In effetti, l'algoritmo crea effettivamente due database: uno per la manutenzione del sistema AF e della misurazione del mirino ottico, utilizzando Digic 8, e uno per il servizio del sistema AF Live View che utilizza Digic X. Poiché è il Digic X che fa tutti i calcoli per rilevamento della testa, una volta che l'algoritmo AF rileva una persona nell'inquadratura, tutto viene trasferito al nuovo processore.

"Una volta che hai coinvolto una persona, hai effettivamente la doppia elaborazione in corso", afferma Burnhill. "Ci sono due database qui, perché l'input di entrambi i sensori sarà leggermente diverso, quindi il modo in cui viene riconosciuto sarà leggermente diverso, quindi questi sono sottoinsiemi dello stesso algoritmo. I dati di base per entrambi sono gli stessi, è solo come verrà riconosciuto e i dati giusti applicati. "

Se non può imparare cose nuove … che dire della FA animale?

Ovviamente, la Canon EOS-1D X Mark III non è solo una fotocamera sportiva: l'altro suo pubblico chiave sono gli appassionati di fauna selvatica. Eppure la fotocamera non possiede la capacità di messa a fuoco automatica degli animali e abbiamo stabilito che il Deep Learning non può effettivamente apprendere nuovi trucchi una volta che è stato inserito nella fotocamera. Quindi è così? Con tutta questa nuova e stravagante tecnologia, la fotocamera non si concentrerà nemmeno sul cane di famiglia?

È vero che, in questo momento, la fotocamera non dispone di AF animale (o occhio di animale). "Fondamentalmente ci stiamo concentrando sulle persone con cui iniziare per far funzionare prima quel tipo di algoritmo", risponde Burnhill. "Ecco perché ci siamo concentrati sullo sport, perché questo è un parametro fisso e possiamo insegnarlo in un certo periodo di tempo",

La risposta, quindi, sta nel firmware. Burnhill ha confermato che esiste il potenziale per la fotocamera di subire più Deep Learning, per cose come uccelli e animali selvatici, e per questo algoritmo aggiornato da diffondere agli utenti tramite aggiornamenti del firmware, anche se non ci sono piani concreti da annunciare.

"Lo svilupperemo continuamente, quindi al momento è ancora indeciso su come e dove andare. Ma il team di sviluppo sta guardando altre fotografie di animali - ci rendiamo conto che c'è tutta una serie di campi, ma ovviamente il grande l'obiettivo di questa fotocamera è lo sport e poi la fauna selvatica, e ovviamente con Tokyo 2022-2023 questa era la priorità ".

È un punto giusto; se Canon avesse aspettato che il Deep Learning imparasse tutto, ci sarebbe voluto più tempo per il rilascio della fotocamera. E sebbene produttori come Sony vantino alcuni AF selettivi per animali nelle loro fotocamere, Burnhill osserva che Canon preferirebbe di gran lunga rilasciare una soluzione AF animale completa piuttosto che una selettiva, frammentaria. Ed è qui che il Deep Learning diventerà inestimabile.

"Il problema è con la fauna selvatica, ci sono molti animali diversi - ovviamente hai predatori con gli occhi davanti, e poi hai gli (occhi) dei conigli ai lati, hai i serpenti, hai gli uccelli … non c'è un sistema che riconosce i volti di tutti gli animali. Ed è qui che entri in tutto questo Deep Learning, di insegnare al sistema a riconoscere queste cose complesse ".

Quindi, mentre la tua Sony potrebbe essere in grado di rintracciare il tuo cane o il tuo gatto, ma non una salamandra o un fenicottero, Canon vuole produrre una fotocamera che fa tutto o niente. "Se avessimo intenzione di farlo, vorremmo farlo per uno spettro più ampio - non vogliamo realizzare una fotocamera che sia adatta ai cani e una fotocamera che sia adatta ai gatti, vogliamo creare una fotocamera che ami gli animali che funziona per la vasta gamma di animali che (i professionisti) sparerebbero ".

Recensione Canon EOS-1D X Mark III
In che modo Canon ha creato la reflex digitale più veloce di sempre? Ridisegnando la scatola dello specchio
102 aggiornamenti sulla Canon EOS-1D X Mark III