Ouvir "#80- Layer pruning e Mixture of Depths. "
Sinopse do Episódio
Fala galera, continuando a serie de episódios sobre PEFT, nesse episoódio eu falo sobre tecnicas de otimização de inferência em LLMs.
Eu falo de layer pruning, onde a gente corta algumas camadas consecutivas da rede sem perder quase nada de qualidade do modelo.
Eu falo também sobre Mixture of Depths, uma tecnica semelhante ao Mixture of Experts, onde a gente usa um routing pra escolher quais tokens vão ser processados em qual camada da rede.
Paper MoD: https://arxiv.org/pdf/2404.02258.pdf
Paper layer pruning: https://arxiv.org/pdf/2403.17887v1.pdf
Instagram do podcast: https://www.instagram.com/podcast.lifewithai
Linkedin do podcast: https://www.linkedin.com/company/life-with-ai
Eu falo de layer pruning, onde a gente corta algumas camadas consecutivas da rede sem perder quase nada de qualidade do modelo.
Eu falo também sobre Mixture of Depths, uma tecnica semelhante ao Mixture of Experts, onde a gente usa um routing pra escolher quais tokens vão ser processados em qual camada da rede.
Paper MoD: https://arxiv.org/pdf/2404.02258.pdf
Paper layer pruning: https://arxiv.org/pdf/2403.17887v1.pdf
Instagram do podcast: https://www.instagram.com/podcast.lifewithai
Linkedin do podcast: https://www.linkedin.com/company/life-with-ai
Mais episódios do podcast Vida com IA
#128- Embeddings e vetores de alta dimensão.
04/09/2025
#127- Como eu uso vibe coding e Cursor.
28/08/2025
#126- Contratações milionárias na Meta.
21/08/2025
#125- GPT5.
14/08/2025
#123- Como a Alexa funciona?
31/07/2025