'Coolie' de Rajinikanth mostra a tecnologia de sincronização labial da Ai da Neuralgarage

‘Coolie’ de Rajinikanth mostra a tecnologia de sincronização labial da Ai da Neuralgarage

Filmes

A sequência de músicas “Chikitu” no filme em língua tâmil de Rajinikanth, “Coolie”, parece ter sido filmado em vários idiomas. Mas as versões de Telugu e Hindi, sem costura, não foram capturadas durante a produção-são o produto da tecnologia revolucionária de IA que está transformando silenciosamente como a indústria do entretenimento se aproxima de conteúdo.

Por trás desse truque tecnológico da mão está Neuralgarage, uma startup indiana de Genai, com sede em Bengaluru, que desenvolveu o VisualDub, um sistema proprietário que elimina a incompatibilidade audiovisual chocante que atormentou o conteúdo apelidado por décadas. O avanço da empresa: transformar não apenas movimentos labiais, mas mais de 40 músculos faciais para criar expressões autênticas que correspondem ao diálogo apelidado.

“Quando falamos, não são apenas nossos lábios que se movem-nossa expressão muda de linhas de sorriso para os músculos do pescoço, para a maçã de Adão que se move para linhas sob os olhos”, diz Mandar Natekar, co-fundador e CEO da Neuralgarage, diz Variedade. “Conseguimos levar em consideração toda a transformação.”

O momento não poderia ser melhor. O Covid-19 acelerou o apetite global por conteúdo apelidado, enquanto plataformas de streaming se esforçavam para preencher lacunas de programação, tornando o público mais consciente da má sincronização labial. “Bilhões de pessoas estavam sentadas em casa, e acho que todos nós nos acostumamos a assistir conteúdo apelidado de uma maneira muito grande”, observa Natekar. “Quanto mais vimos esse conteúdo, mais percebemos que a experiência audiovisual é horrível.”

Fundada em 2021 por Natekar, Anjan Banerjee, Subhabrata Debnath e Subhashish Saha, Neuralgarage se baseia nas mais de duas décadas de Natekar na indústria de mídia e entretenimento indiana. Mas o que diferencia Neuralgarage no espaço lotado de dublagem de IA é sua abordagem abrangente para a transformação facial. A tecnologia da empresa transforma mais de 40 músculos faciais além dos movimentos dos lábios, trabalhando em close-ups extremos, faces barbadas, vários ângulos e cenários de iluminação, mantendo a qualidade compatível com o IMAX e a integridade de resolução total.

“Quando você está falando de cinema, quando está falando de tela grande, quando está falando de plataformas de streaming de alta definição, a autenticidade e a naturalidade são de suma importância”, enfatiza Natekar. O sistema da empresa preserva todas as características faciais e mantém a qualidade perfeita de pixels entre as transformações-cruciais para liberações teatrais.

Essa proezas técnicas já conquistou o reconhecimento da indústria de Neuralgarage. Em março, a startup se tornou a primeira empresa indiana a vencer a competição SXSW Pitch em Austin, Texas, levando a categoria de entretenimento, mídia, esportes e conteúdo.

A tecnologia da Neuralgarage se estende além da dublagem tradicional. A empresa trabalhou no “Special Ops” de Jiohotstar, onde a censura exigiu mudanças de diálogo após as filmagens. Em vez de refazer o caro ou a dublagem disruptiva, o VisualDub sincronizou perfeitamente o novo áudio com imagens existentes.

“Eles nos deram um novo áudio das novas palavras, e sintamos os lábios de volta ao show”, explica Natekar. “Você assiste ao show, não perceberá que ele não foi filmado dessa maneira mais cedo.”

Os créditos da empresa incluem os episódios “Kesari Capítulo 2”, “Special Ops” e, mais recentemente, a sequência de músicas “Coolie”. As reações do público à transformação do Tamil-Telugu foram reveladoras: os espectadores assumem que a música foi realmente filmada em vários idiomas.

“É uma sensação de descrença”, diz Natekar sobre as reações dos fãs. “Eles estão falando sobre o quão bom é que eles realmente mataram a música em vários idiomas. Eles não conseguiram entender que há tecnologia usada nisso”.

As implicações se estendem além do desempenho técnico. A sincronização dos lábios perfeita altera fundamentalmente como o conteúdo chamado é percebido e comercializado globalmente. “Com o VisualDub, agora se torna um filme coreano em si”, explica Natekar, usando o exemplo hipotético de um filme de Tom Cruise, apelidado em coreano. “Não é mais um filme inglês apelidado de coreano. É um filme coreano porque as expressões agora correspondem ao áudio”.

Essa mudança permite que os estúdios comercializem o conteúdo como produções nativas em diferentes territórios, em vez de versões apelidadas, potencialmente comandando preços mais altos e apelo mais amplo. “Você está filmando em um idioma, mas está criando IPS em vários idiomas”, diz Natekar.

A empresa opera como um serviço B2B, trabalhando diretamente com grandes estúdios e proprietários de conteúdo, incluindo Sun Pictures, Dharma Productions e Friday Film Works. Essa abordagem evita preocupações éticas com a clonagem de voz e o uso não autorizado de semelhanças de atores, pois todo o trabalho é feito com permissões e direitos de conteúdo adequados.

A Neuralgarage está desenvolvendo seu próprio modelo de clonagem de voz – um sistema de “interruptor de identidade” que mantém a performance de dublagem do artista enquanto aplica as características de voz do ator original. Diferentemente das ferramentas de clonagem de voz existentes projetadas para conteúdo de formato curto, esse sistema é criado para filmes de longa duração que exigem alcance emocional sustentado e consistência vocal.

Olhando para o futuro, Natekar prevê aplicações além da dublagem: “Imagine um tune automático para expressões. Conversei com toneladas e toneladas de diretores que às vezes não estão satisfeitos com a expressão que eles acabaram trancando em cena”. A tecnologia poderia eventualmente permitir correções de expressão pós-produção sem refazer o caro.

A expansão global já está em andamento. Armado com créditos teatrais das principais produções indianas e da vitória do SXSW, o Neuralgarage está em campo com o interesse dos estúdios de Hollywood. “Estamos resolvendo um problema global”, afirma Natekar, “e anunciaremos nossa entrada no mundo, começando com os EUA em breve”.

À medida que o público em todo o mundo consome cada vez mais conteúdo entre barreiras linguísticas, a tecnologia da Neuralgarage promete tornar essa experiência perfeita – uma expressão facial perfeitamente sincronizada por vez.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *