Google Pixel 3, como a inteligĂȘncia artificial funciona durante as fotos

O Google desenvolveu um algoritmo especĂ­fico de inteligĂȘncia artificial para o modo retrato do Pixel 3, smartphone que, como pudemos verificar, consegue gerar um efeito bokeh de alta qualidade, apesar de usar uma Ășnica lente. Produtos de outras marcas, por outro lado, montam duas ou mais – o que facilita a obtenção do efeito em questĂŁo.

Ontem, o Google publicou um post dedicado a esse tĂłpico, em seu blog, onde ele fala sobre pesquisas em InteligĂȘncia Artificial. Assim, descobrimos que o resultado notĂĄvel Ă© o resultado de um sofisticado trabalho de pesquisa, cujo ponto de partida Ă© o foco do PDAF.

O acrĂŽnimo significa Foco automĂĄtico com detecção de fase, e Ă© uma solução tĂ©cnica normalmente encontrada em smartphones e cĂąmeras. Com este sistema, o sensor sempre grava duas imagens (mesmo que a lente seja apenas uma), alterando levemente o ponto de vista e gerando uma diferença de paralaxe. A comparação entre as duas detecçÔes permite identificar os objetos no quadro e focalizĂĄ-los. É um sistema que depende muito de software e que melhorou ao longo dos anos – especialmente no que diz respeito Ă  velocidade. O desfoque de fundo, entĂŁo, Ă© obtido atravĂ©s do processamento de software no caso de smartphones (mesmo aqueles com mais de uma lente). Em uma cĂąmera real, no entanto, Ă© um efeito Ăłptico natural devido Ă s prĂłprias lentes.

Neste ponto, o software Pixel 3 estima a profundidade da cena, para determinar qual Ă© o assunto em primeiro plano (a pessoa que queremos retratar) e o plano de fundo. Com o EstĂ©reo Estimativa de profundidade o smartphone compara as duas imagens diferentes geradas pelo PDAF, usando o paralaxe diferente para determinar qual Ă© o plano de fundo – isso ocorre porque os elementos mais distantes mostrarĂŁo uma variação maior do que os mais prĂłximos.

O sistema embora Ă© imperfeito e pode gerar erros; os primeiros modelos equipados com o “modo retrato” Ă s vezes geravam modelos grosseiros. O Google melhorou o Estimativa de profundidade usando duas fontes adicionais de informação, alĂ©m da visualização estĂ©reo: a “sugestĂŁo de profundidade de desfocagem” e a “sugestĂŁo semĂąntica”.

No primeiro caso, o software identifica os objetos mais distantes aproveitando o fato de que eles estĂŁo menos focados. No segundo, explora o fato de que quanto mais longe um objeto estiver, menor ele aparecerĂĄ. Este Ășltimo elemento Ă© particularmente relevante: o telefone deve saber primeiro quĂŁo grande Ă© um carro, uma bola, uma ĂĄrvore ou qualquer outra coisa. E ele deve ser capaz de entender a relação entre as dimensĂ”es que “vĂȘ”. Criar um sistema de IA capaz de lidar com esse fenĂŽmeno nĂŁo era Ăłbvio.

Os desenvolvedores do Google resolveram o problema escrevendo um algoritmo ad hoc que combina os trĂȘs elementos descritos (estĂ©reo, desfocagem e semĂąntica) e usĂĄ-los para treinar uma rede neural convolucional escrita com o Tensor Flow.

Mas ainda assim nĂŁo foi suficiente, especialmente porque as informaçÔes de paralaxe geradas por um smartphone nĂŁo sĂŁo suficientes para treinar adequadamente o algoritmo. Em seguida, prosseguimos para crie um “Frenkenphone”, ou seja, um monstro composto por 5 pixels 3 mantidos juntos por hardware especialmente projetado. Todos eles disparam ao mesmo tempo, com um intervalo de 2 milissegundos no mĂĄximo. Eles sĂŁo assim obtidos informaçÔes mais detalhadas, graças ao fato de os cinco sensores estarem muito distantes.

Eventualmente, mudou-se para Tensor Flow Lite, para gerar um algoritmo que possa ser executado em um Pixel 3 com rapidez suficiente – ou seja, ele pode tirar fotos no modo retrato sem nos fazer esperar muito tempo. É uma plataforma de desenvolvimento que permite “executar algoritmos de aprendizado de mĂĄquina em dispositivos mĂłveis ou incorporados”.

O Google forneceu um ĂĄlbum de imagens para mostrar as diferenças entre os sistemas atual e anterior. Todo esse trabalho estĂĄ condensado na aplicação CĂąmera do Google, prĂ©-instalado no Google Pixels. Os dados coletados, entre outras coisas, tambĂ©m permitem que vocĂȘ atue a posteriori no foco, um gesto que hoje pode parecer normal, mas que apenas alguns anos foram extraordinĂĄrios – alguĂ©m talvez se lembre do ruĂ­do da mĂ­dia que gerou o Lytro.