Paradigmas Compostos#
Os paradigmas compostos em redes neurais artificiais representam abordagens poderosas que integram diferentes aspectos do aprendizado simultâneo para maximizar o desempenho e a eficiência dos modelos. Entre esses paradigmas, destacam-se o multi-task learning, o multi-modal learning e o uso de joint embeddings. O multi-task learning permite que um único modelo resolva múltiplas tarefas ao mesmo tempo, aproveitando o compartilhamento de informações entre elas para melhorar a generalização e eficiência computacional. Já o multi-modal learning envolve a combinação de diferentes tipos de dados, como imagens, texto e áudio, permitindo que redes neurais integrem informações complementares de várias modalidades. Por fim, o joint embedding learning foca na criação de espaços de representação compartilhados, onde diferentes modalidades, como imagens e descrições textuais, podem ser mapeadas e comparadas diretamente, facilitando a interoperabilidade entre elas. Juntos, esses paradigmas formam a base de abordagens avançadas que ampliam o escopo e a flexibilidade das redes neurais artificiais em aplicações complexas e diversas.
Multi-task Learning#
O multi-task learning (MTL) é um paradigma que visa resolver múltiplas tarefas simultaneamente, utilizando um único modelo. A principal motivação por trás do MTL é o compartilhamento de informação entre tarefas relacionadas, onde as representações aprendidas em uma tarefa podem beneficiar outras, levando a uma melhor generalização e redução do overfitting (Caruana, 1997). Ao compartilhar representações internas, o MTL permite que o modelo capte padrões comuns entre as tarefas, o que muitas vezes resulta em um aprendizado mais robusto e eficiente. Além disso, o MTL também proporciona eficiência computacional, pois evita a necessidade de treinar modelos separados para cada tarefa, o que pode reduzir significativamente o custo de treinamento e a complexidade do sistema. Este paradigma é amplamente utilizado em diversas áreas, como visão computacional e processamento de linguagem natural, onde tarefas inter-relacionadas podem compartilhar características comuns.
Formas#
O multi-task learning (MTL) pode ser realizado de diversas maneiras, dependendo de como as tarefas são integradas e de como as representações são compartilhadas. Uma das abordagens mais comuns é a de compartilhamento tardio de parâmetros, onde as tarefas compartilham as primeiras camadas do modelo para aprender representações gerais, e as camadas finais são específicas para cada tarefa. Outra abordagem é o compartilhamento antecipado, onde as tarefas têm redes praticamente separadas desde o início.

Além disso, existem abordagens com redes completamente separadas que utilizam mecanismos para alinhar o aprendizado entre as tarefas, permitindo que troquem informações indiretamente, como as cross-stitch networks (Misra, 2016), ajustando as representações com base em seus respectivos contextos. Essas diferentes formas de realizar MTL são escolhidas dependendo da relação entre as tarefas e da necessidade de personalização das representações para cada uma.

Exemplos e Aplicações#
Multi-task Learning permite o desenvolvimento de diversas aplicações. De forma simplificada, um exemplo simples pode ser considerado o multi-label classification, já que a detecção de diferentes classes são realizadas simultaneamente. Porém, costumamos utilizar o termo de MTL para tarefas mais complexas.
Um grande exemplo de MTL é a detecção de objetos, visto que temos saídas nas redes neurais para classificação e regressão (bounding boxes). Também temos modelos que realizam detecção e segmentação de objetos simultâneos, como Mask-RCNN, caracterizando aplicações de MTL.
Além de visão computacional, também é possível realizar MTL ao treinar redes de processamento de linguagem natural para analisar sentimentos e classificar tópicos simultaneamente. Em séries temporais, podemos realizar previsão de diversas saídas, como previsão de demanda e preço de produtos, simultaneemente.
Aplicações mais recentes, como o desenvolvimento de veículos autônomos, envolvem não apenas realização de diversas tarefas, mas também uso de diversas modalidades de dados. Para isto, começamos também a trabalhar com Multi-modal Learning.
Multi-modal Learning#
O multi-modal learning é um paradigma de aprendizado que envolve a integração de dados de diferentes modalidades, como imagens, texto, áudio e vídeo, em um único modelo. A ideia principal é aproveitar as informações complementares oferecidas por cada modalidade para melhorar o desempenho em tarefas complexas. Por exemplo, um modelo de aprendizado multimodal pode combinar dados visuais e linguísticos para gerar descrições de imagens ou responder a perguntas sobre o conteúdo visual. Uma das grandes vantagens do multi-modal learning é sua capacidade de capturar representações mais ricas e contextualmente completas, o que resulta em uma melhor generalização. Essa abordagem tem aplicações em áreas como reconhecimento de fala, geração de legendas para imagens, e sistemas de recomendação, onde a combinação de várias fontes de dados permite que o modelo ofereça soluções mais precisas e robustas.
Entradas Multi-modais#
Os modelos com entradas multi-modais são aqueles que processam simultaneamente diferentes tipos de dados, como imagens, texto e áudio, para realizar uma ou mais tarefas. A principal vantagem desses modelos é a capacidade de combinar as informações complementares fornecidas por cada modalidade, permitindo que o modelo tenha uma visão mais abrangente e rica do problema. Por exemplo, em tarefas de pergunta-resposta visual (Visual Question Answering - VQA), o modelo recebe tanto uma imagem quanto uma pergunta em formato textual e precisa gerar uma resposta precisa, utilizando dados visuais e linguísticos. Outro exemplo são os sistemas de recomendação multimodal, que integram dados como histórico de comportamento, imagens de produtos e descrições textuais para fornecer recomendações mais personalizadas. Esses modelos são amplamente usados em várias áreas, como saúde, onde combinam imagens médicas e relatórios clínicos, e em sistemas autônomos, que processam dados de sensores visuais e LiDAR. O uso de entradas multi-modais permite que o modelo capture relações mais profundas entre os dados e ofereça soluções mais robustas e adaptáveis.
Formas#
Os dados multi-modais podem ser processados de diferentes maneiras, dependendo do estágio em que as informações de cada modalidade são combinadas no modelo. Uma abordagem comum é a fusão antecipada (early fusion), onde as entradas de diferentes modalidades são combinadas logo no início do pipeline, criando uma representação conjunta que é alimentada pelas camadas subsequentes da rede neural. Outra abordagem é a fusão tardia (late fusion), onde cada modalidade é processada separadamente por redes dedicadas, e as representações resultantes são combinadas apenas nas etapas finais para gerar a predição. Há também a fusão híbrida (hybrid fusion), onde as modalidades são combinadas em diferentes estágios do modelo, permitindo que cada fonte de dados contribua de forma mais eficaz em diferentes níveis de abstração. Essas técnicas são utilizadas em tarefas como reconhecimento de fala multimodal, sistemas de recomendação e análise de vídeos, onde a combinação eficiente de diferentes modalidades pode melhorar a precisão e robustez dos modelos. Cada abordagem de fusão oferece um equilíbrio entre complexidade computacional e a capacidade de capturar relações profundas entre as modalidades.

Modelos para Conversão#
Os modelos multi-modais para conversão de dados são projetados para transformar dados de uma modalidade em outra, aproveitando informações provenientes de fontes distintas. Um exemplo notável é o DALL-E, que converte texto em imagens, gerando representações visuais a partir de descrições textuais detalhadas. Outro exemplo é o Text-to-Speech (TTS), onde o modelo transforma texto em áudio, permitindo que assistentes virtuais, como Alexa e Google Assistant, conversem com os usuários em linguagem natural.
Da mesma forma, sistemas de Speech-to-Text (STT) convertem áudio em texto (Hannun, 2014), sendo amplamente usados em reconhecimento de fala para transcrição de áudio. Também temos exemplos de conversão de imagens em legendas (Xu, 2015). Esses modelos de conversão entre modalidades são essenciais para facilitar a comunicação entre humanos e máquinas, criar conteúdos automaticamente, e melhorar a acessibilidade para deficientes auditivos ou visuais.


Saídas e Entradas Multi-modais#
Perceiver e Perceiver IO (2021)#
O Perceiver foi desenvolvido para enfrentar as limitações de escalabilidade dos Transformers tradicionais, especialmente quando aplicados a entradas de alta dimensão, como vídeos ou nuvens de pontos 3D. Ao invés de processar todos os tokens de entrada diretamente, o Perceiver projeta os dados para um espaço latente de dimensão fixa, onde o mecanismo de atenção latente é aplicado, reduzindo drasticamente o custo computacional. Uma extensão, o Perceiver IO, vai além ao adaptar esse modelo para lidar com uma variedade de tipos de entradas e saídas, permitindo que o mesmo modelo processe dados como imagens, vídeos, texto e até sinais 3D, com diferentes formatos de saída. Com essa flexibilidade e eficiência, o Perceiver e o Perceiver IO estão tornando os Transformers mais adequados para aplicações multimodais e de grandes dimensões.

Aplicações#
As aplicações de multi-modal learning são amplas e abrangem diversas áreas que se beneficiam da combinação de diferentes tipos de dados. Na área de visão computacional, por exemplo, sistemas como Visual Question Answering (VQA) integram imagens e textos para responder perguntas sobre o conteúdo visual de uma cena. Outra aplicação comum é na geração de legendas automáticas para imagens e vídeos, onde modelos multimodais combinam informações visuais e linguísticas para gerar descrições em linguagem natural. No campo da saúde, modelos multimodais podem combinar imagens médicas (como raios-X) com dados clínicos (como relatórios de pacientes) para realizar diagnósticos mais precisos e eficientes. Sistemas de recomendação multimodal também utilizam uma combinação de dados de texto, imagem e vídeo para personalizar recomendações de produtos em plataformas de e-commerce e mídia social. Além disso, os assistentes virtuais, como os sistemas de reconhecimento de fala, integram dados de áudio e texto para entender e gerar respostas mais naturais. Essas aplicações demonstram como a integração de múltiplas modalidades permite que os modelos compreendam melhor contextos complexos e forneçam soluções mais robustas.
Joint-embedding Learning#
O joint-embedding learning é uma abordagem que busca projetar diferentes modalidades de dados, como texto e imagens, em um espaço de representação compartilhado. O objetivo é permitir que dados de diferentes tipos sejam comparáveis diretamente, mesmo que venham de modalidades distintas. Esse processo de aprendizado é amplamente utilizado em modelos como o CLIP (Contrastive Language-Image Pre-training), que mapeia texto e imagens para o mesmo espaço vetorial, permitindo que descrições textuais e imagens correspondentes fiquem próximas entre si nesse espaço (Ramesh et al., 2022). Essa técnica possibilita tarefas como a busca cruzada entre modalidades, onde, por exemplo, pode-se encontrar uma imagem a partir de uma descrição textual ou vice-versa. Outra aplicação de joint-embedding é a criação de espaços semânticos que facilitam o zero-shot learning, permitindo que o modelo generalize para tarefas ou classes não vistas durante o treinamento. A principal vantagem do joint-embedding learning é a criação de uma representação comum que captura as relações semânticas entre diferentes formas de dados, tornando o aprendizado multimodal mais eficiente e flexível.

Formas#
Existem diferentes tipos de joint-embedding que variam conforme a forma como as representações de diferentes modalidades são combinadas no espaço compartilhado. Um dos tipos mais comuns é o joint-embedding contrastivo, utilizado em modelos como o CLIP, onde as representações de modalidades (como imagens e textos) são aprendidas em paralelo e forçadas a se alinhar no mesmo espaço por meio de loss functions contrastivas. Esse método garante que as representações de itens correspondentes, como uma imagem e sua legenda, estejam próximas no espaço de embedding, enquanto itens não relacionados ficam distantes.

Outro tipo é o joint-embedding supervisionado, onde as modalidades são projetadas para um espaço compartilhado usando rótulos explícitos durante o treinamento, ajudando o modelo a aprender uma correspondência entre modalidades supervisionada por dados rotulados.
Há também o joint-embedding não supervisionado, onde o modelo aprende a alinhar diferentes modalidades de forma autônoma, sem depender de rótulos, explorando padrões intrínsecos nos dados.
Esses diferentes tipos de joint-embedding são amplamente aplicados em tarefas como busca multimodal, classificação cross-modal, e zero-shot learning, em que a flexibilidade do modelo para integrar informações de diferentes modalidades no mesmo espaço é crítica para seu sucesso.
Considerações Finais#
Nesta aula, abordamos diferentes paradigmas relacionados a arquiteturas compostas. Primeiro, iniciamos com multi-task learning, onde podemos realizar diversas tarefas simultaneamente com um modelo. Em seguida, avançamos para modelos multi-modais, que conseguem trabalhar com dados de diversas modalidades diferentes para realizar uma tarefa específica ou múltiplas. Por fim, falamos sobre joint-embedding learning, onde utilizamos técnicas como contrastive learning (aula passada) para mapear dados de modalidades diferentes em um mesmo espaço latente.
Próxima aula#
Na próxima aula, falaremos sobre aspectos práticos no desenvolvimento de redes neurais artificiais.
Exercícios#
Volte ao exemplo de séries temporais da aula 4 (4.a) e explique como os modelos definidos trabalham com o conceito de multi-task learning
Ao invés de um modelo multi-task, separe em dois modelos, um para GR e outro para CO2. Compare o resultado com a abordagem multi-task original.
Explore modificações de arquitetura utilizando compartilhamento tardio (late sharing).
Referências#
Caruana, R. (1997). Multitask learning. Machine learning, 28, 41-75.
Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch networks for multi-task learning. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3994-4003).
Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., … & Sutskever, I. (2021, July). Zero-shot text-to-image generation. In International conference on machine learning (pp. 8821-8831). Pmlr.
Hannun, A. (2014). Deep Speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.
Xu, K. (2015). Show, attend and tell: Neural image caption generation with visual attention. arXiv preprint arXiv:1502.03044.
Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (2021, July). Perceiver: General perception with iterative attention. In International conference on machine learning (pp. 4651-4664). PMLR.
Jaegle, A., Borgeaud, S., Alayrac, J. B., Doersch, C., Ionescu, C., Ding, D., … & Carreira, J. (2021). Perceiver io: A general architecture for structured inputs & outputs. arXiv preprint arXiv:2107.14795.
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PMLR.
Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2), 3.