Avaliação de LLMs

Building The Future - AI Portugal Podcast

24/07/2025 55 min Temporada 2 Episodio 28

Ouvir "Avaliação de LLMs "

Descargar episodio Ver en sitio original

Sinopse do Episódio

Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.AI News: https://www.news-medical.net/news/20250713/Novel-AI-application-diagnoses-endocrine-cancers-with-speed-and-accuracy.aspxhttps://www.bbc.com/news/articles/c1e02vx55wpoMicrosoft’sAI Is Better Than Doctors at Diagnosing Disease | TIMEhttps://time.com/7299314/microsoft-ai-better-than-doctors-diagnosis/Email us at [email protected] Produção:Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/ Hosts:Marco António Silva: https://www.linkedin.com/in/marconsilva/José António Silva: https://www.linkedin.com/in/canoas/Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/

Mais episódios do podcast Building The Future - AI Portugal Podcast

O Impacto Economico Transformativo trazido pela IA 30/10/2025

A Era do Copilot (Com Convidada Beatriz Herrera) 16/10/2025

State of Gen AI in Business - 2025 02/10/2025

AI & Nanotechnology 18/09/2025

IA na produtividade das Equipas e dos Colaboradores 21/08/2025

AI na luta pela Sustentabilidade Ambiental 07/08/2025

o3 , Reasoning, LLMs 10/07/2025

Semantic Kernel - (Com Convidado - Shawn Henry) 26/06/2025

Prompt Engineering 12/06/2025

Pesquisa com IA - (Com Convidado - José Camacho) 30/04/2025

Ver todos los episodios