Perfusion, a solução da Nvidia para altas demandas de armazenamento de geração de imagem AI
Os pesquisadores da Nvidia desenvolveram uma nova técnica de geração de imagem AI que permite modelos de texto para imagem altamente personalizados com requisitos mínimos de armazenamento.
De acordo com um artigo publicado no arXiv, o método proposto, chamado "Perfusion", pode adicionar novos conceitos visuais aos modelos existentes, usando apenas 100KB de parâmetros por conceito.
Fonte: Pesquisa Nvidia
Como descrevem os autores do artigo, o Perfusion funciona "fazendo pequenas atualizações na representação interna do modelo de texto para imagem".
Mais especificamente, ele faz alterações cuidadosamente calculadas na parte do modelo que conecta as descrições textuais aos recursos visuais gerados. A aplicação de pequenas edições paramétricas à camada de atenção cruzada permite que o Perfusion modifique a maneira como a entrada de texto é convertida em imagens.
Portanto, o Perfusion não retreinou completamente o modelo de texto para imagem do zero. Em vez disso, ele ajusta ligeiramente as transformações matemáticas que transformam texto em imagens. Isso permite personalizar o modelo para gerar novos conceitos visuais sem exigir muito poder de computação ou retreinamento do modelo.
O método de perfusão requer apenas 100kb.
A perfusão atinge esses resultados com duas a cinco ordens de grandeza menos parâmetros do que as técnicas concorrentes.
Enquanto outros métodos podem exigir centenas de megabytes a gigabytes de armazenamento por conceito, o Perfusion requer apenas 100 KB, comparável a uma pequena imagem, texto ou mensagem do WhatsApp.
Essa redução drástica pode tornar mais viável a implantação de modelos de arte de IA altamente personalizados.
De acordo com o co-autor Gal Chechik,
"A infusão não apenas permite uma personalização mais precisa em uma fração do tamanho do modelo, mas também permite o uso de dicas mais complexas e a incorporação de conceitos aprendidos individualmente no tempo de inferência."
O método pode usar as noções aprendidas individualmente de "ursinho de pelúcia" e "bule" para gerar imagens criativas como "um ursinho de pelúcia navegando em um bule de chá".
Fonte: Pesquisa Nvidia
Possibilidade de personalização eficiente
A capacidade exclusiva do Perfusion de personalizar modelos de IA usando apenas 100 KB por conceito abre inúmeras aplicações em potencial:
Essa abordagem abre caminho para que os indivíduos personalizem facilmente modelos de texto para imagem com novos objetos, cenas ou estilos, eliminando assim a necessidade de retreinamento dispendioso. A eficiência do Perfusion de atualizações de parâmetros de 100 KB por conceito permite que modelos personalizados usando a tecnologia sejam implementados em dispositivos de consumo, permitindo a criação de imagens no dispositivo.
Um dos aspectos mais atraentes dessa tecnologia é o potencial que ela oferece para compartilhamento e colaboração em torno de modelos de IA. Os usuários podem compartilhar seus conceitos personalizados como pequenos arquivos adicionais, evitando o compartilhamento de pontos de verificação de modelo tediosos.
Em termos de distribuição, modelos adaptados a organizações específicas podem ser mais facilmente disseminados ou implantados na borda. À medida que a prática da geração de texto para imagem continua a se tornar mais comum, a capacidade de obter reduções de tamanho drásticas sem sacrificar a funcionalidade será crítica.
Vale a pena notar, no entanto, que o Perfusion fornece principalmente personalização de modelo, em vez de recursos generativos completos.
Restrições e liberações
Embora promissora, a técnica tem algumas limitações. Os autores apontam que as escolhas-chave durante o treinamento às vezes podem generalizar demais um conceito. Mais pesquisas ainda são necessárias para combinar perfeitamente várias ideias personalizadas em uma única imagem.
Os autores observam que o código do Perfusion estará disponível na página do projeto, indicando a intenção de lançar publicamente o método no futuro, possivelmente pendente de revisão por pares e publicações oficiais de pesquisa. No entanto, como o trabalho atualmente é publicado apenas no arXiv, os detalhes exatos da disponibilidade pública permanecem obscuros. Nesta plataforma, os pesquisadores podem fazer upload de artigos antes da revisão formal por pares e publicação em periódicos/conferências.
Embora o código do Perfusion ainda não tenha sido acessado, os planos propostos pelos autores significam que esses sistemas de IA altamente eficientes e personalizados podem, no devido tempo, chegar às mãos de desenvolvedores, indústria e criadores.
Com o desenvolvimento de plataformas de arte de IA, como MidJourney, DALL-E 2 e Stable Diffusion, as técnicas que permitem maior controle do usuário podem ser críticas para a implantação no mundo real. Com melhorias de eficiência como Perfusion, a Nvidia parece determinada a manter sua vantagem em um ambiente em rápida evolução.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Nvidia encolhe o método de geração de imagem AI para o tamanho de uma mensagem do WhatsApp
Perfusion, a solução da Nvidia para altas demandas de armazenamento de geração de imagem AI
Os pesquisadores da Nvidia desenvolveram uma nova técnica de geração de imagem AI que permite modelos de texto para imagem altamente personalizados com requisitos mínimos de armazenamento.
De acordo com um artigo publicado no arXiv, o método proposto, chamado "Perfusion", pode adicionar novos conceitos visuais aos modelos existentes, usando apenas 100KB de parâmetros por conceito.
Fonte: Pesquisa Nvidia
Como descrevem os autores do artigo, o Perfusion funciona "fazendo pequenas atualizações na representação interna do modelo de texto para imagem".
Mais especificamente, ele faz alterações cuidadosamente calculadas na parte do modelo que conecta as descrições textuais aos recursos visuais gerados. A aplicação de pequenas edições paramétricas à camada de atenção cruzada permite que o Perfusion modifique a maneira como a entrada de texto é convertida em imagens.
Portanto, o Perfusion não retreinou completamente o modelo de texto para imagem do zero. Em vez disso, ele ajusta ligeiramente as transformações matemáticas que transformam texto em imagens. Isso permite personalizar o modelo para gerar novos conceitos visuais sem exigir muito poder de computação ou retreinamento do modelo.
O método de perfusão requer apenas 100kb.
A perfusão atinge esses resultados com duas a cinco ordens de grandeza menos parâmetros do que as técnicas concorrentes.
Enquanto outros métodos podem exigir centenas de megabytes a gigabytes de armazenamento por conceito, o Perfusion requer apenas 100 KB, comparável a uma pequena imagem, texto ou mensagem do WhatsApp.
Essa redução drástica pode tornar mais viável a implantação de modelos de arte de IA altamente personalizados.
De acordo com o co-autor Gal Chechik,
"A infusão não apenas permite uma personalização mais precisa em uma fração do tamanho do modelo, mas também permite o uso de dicas mais complexas e a incorporação de conceitos aprendidos individualmente no tempo de inferência."
O método pode usar as noções aprendidas individualmente de "ursinho de pelúcia" e "bule" para gerar imagens criativas como "um ursinho de pelúcia navegando em um bule de chá".
Fonte: Pesquisa Nvidia
Possibilidade de personalização eficiente
A capacidade exclusiva do Perfusion de personalizar modelos de IA usando apenas 100 KB por conceito abre inúmeras aplicações em potencial:
Essa abordagem abre caminho para que os indivíduos personalizem facilmente modelos de texto para imagem com novos objetos, cenas ou estilos, eliminando assim a necessidade de retreinamento dispendioso. A eficiência do Perfusion de atualizações de parâmetros de 100 KB por conceito permite que modelos personalizados usando a tecnologia sejam implementados em dispositivos de consumo, permitindo a criação de imagens no dispositivo.
Um dos aspectos mais atraentes dessa tecnologia é o potencial que ela oferece para compartilhamento e colaboração em torno de modelos de IA. Os usuários podem compartilhar seus conceitos personalizados como pequenos arquivos adicionais, evitando o compartilhamento de pontos de verificação de modelo tediosos.
Em termos de distribuição, modelos adaptados a organizações específicas podem ser mais facilmente disseminados ou implantados na borda. À medida que a prática da geração de texto para imagem continua a se tornar mais comum, a capacidade de obter reduções de tamanho drásticas sem sacrificar a funcionalidade será crítica.
Vale a pena notar, no entanto, que o Perfusion fornece principalmente personalização de modelo, em vez de recursos generativos completos.
Restrições e liberações
Embora promissora, a técnica tem algumas limitações. Os autores apontam que as escolhas-chave durante o treinamento às vezes podem generalizar demais um conceito. Mais pesquisas ainda são necessárias para combinar perfeitamente várias ideias personalizadas em uma única imagem.
Os autores observam que o código do Perfusion estará disponível na página do projeto, indicando a intenção de lançar publicamente o método no futuro, possivelmente pendente de revisão por pares e publicações oficiais de pesquisa. No entanto, como o trabalho atualmente é publicado apenas no arXiv, os detalhes exatos da disponibilidade pública permanecem obscuros. Nesta plataforma, os pesquisadores podem fazer upload de artigos antes da revisão formal por pares e publicação em periódicos/conferências.
Embora o código do Perfusion ainda não tenha sido acessado, os planos propostos pelos autores significam que esses sistemas de IA altamente eficientes e personalizados podem, no devido tempo, chegar às mãos de desenvolvedores, indústria e criadores.
Com o desenvolvimento de plataformas de arte de IA, como MidJourney, DALL-E 2 e Stable Diffusion, as técnicas que permitem maior controle do usuário podem ser críticas para a implantação no mundo real. Com melhorias de eficiência como Perfusion, a Nvidia parece determinada a manter sua vantagem em um ambiente em rápida evolução.