Sinopse do Episódio "Processamento de Dados com Apache Spark - Casos de Uso, Problemas Comuns e Melhores Práticas"
Apache Spark é a engine de processamento de dados mais famosa e utilizada do mundo. Nesse episódio você irá entender seus conceitos, modos de operação, tipos de deployment e empresas que utilizam essa plataforma para processamento massivo de dados.E para que você possa estar ainda mais preparado, compilamos alguns pontos avançados como: problemas comuns e suas soluções, melhores práticas para não ter problemas depois da adoção e quais são seus pontos fortes e fracos.Esse episódio está recheado de dicas e truques para você se diferenciar no seu trabalho, não perca e aproveite. Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Ouvir "Processamento de Dados com Apache Spark - Casos de Uso, Problemas Comuns e Melhores Práticas"
Mais episódios do podcast Engenharia de Dados [Cast]
- O Dia a Dia de um Analytics Engineer com o Time de Dados da Clicksign
- O Dia a Dia de um Arquiteto e Engenheiro de Dados com o Time de Dados da Clicksign
- Data Analytics com o Time de Dados da Clicksign
- Desafios na Construção de uma Plataforma de Dados no Kubernetes com o Time do Orion
- Gestão & Produtos de Dados com o Time de Dados da Clicksign
- Challenge in Bulding an Open-Source Community with Aaron Williams
- O Desafio da Engenharia de Dados no iFood com o Diretor de ML e Engenharia, Ivan Lima
- The Data Lakehouse Paradigm with Bill Inmon - The Father of Data Warehouse
- Querying Data with Trino from Earth to Space - Talk with Brian Olsen, a Developer Advocate at Starburst
- A Day in a Life of a Founding Engineer at StarTree: Apache Pinot with Neha Pawar
- Simplificando Projetos de Analytics utilizando dbt e Modern Data Stack com Matheus Willian, Head of Data Engineering na One Way Solution
- Conferência Kafka Summit 2023 London
- Cloudera CDP & Stream Processing para Real-Time Analytics com André Araújo, Field Engineer, Data in Motion na Cloudera
- Connecting Data Engineering and ML to Build an Efficient End-to-End Data Product Flow with Aurimas Griciūnas
- Dremio & Iceberg for Building an Open-Source Data Lakehouse with Dipankar Mazumdar, Data Advocate at Dremio
- Simplify Data Engineering Projects in Your Lakehouse with Delta Lake Framework with Matthew Powers & Denny Lee, Developer Advocates at Databricks
- Spark on Kubernetes [SPOK] with Hudson Buzby, Solutions Architect at Spot.io
- SQLMesh | Streamlining Python & SQL Transformations with Tobias Mao, Co-Founder & CTO at Tobiko Data
- O Poder do Lineage de Dados com Lucas Galindo & Gabs Ferreira da Alvin
- Kafka on Kubernetes using Strimzi with Jakub Scholz, Senior Principal Software Engineer at Red Hat
- A Day in a Life of Data Engineer at Netflix with Xinran Waibel
- Mastering Apache Airflow with Marc Lamberti, Head of Customer Education at Astronomer
- ETL no Airflow de Forma Inteligente e Escalável usando Astro Python SDK com Tatiana Martins, Staff Software Engineer na Astronomer
- Databricks como Plataforma de Lakehouse para Times de Dados
- Confluent Community Catalysts Brazukas: Dissecando o Apache Kafka [Round 1]
- A Day in a Life of a Co-Founder, Commiter & PMC Member of Apache Flink with Timo Walther
- Harnessing The Power of Data Observability on Elementary for dbt Users with Maayan Salom
- Enabling User-Facing Analytics using Apache Pinot with Kishore Gopalakrishna
- A Day in a Life of a Director of Airflow Engineering with Kaxil Naik at Astronomer
- Conferência Microsoft Ignite 2022: Anúncios e Novidades
- Cube: Reshaping Business Intelligence for Data Engineers with a Headless BI Platform
- Dremio: The De-Facto Open Data Lakehouse Platform with Alex Merced, Developer Advocate at Dremio
- Bytewax: The Next Data Processing Framework Generation in Python
- A Day in a Life of a Field CTO at Confluent - Data in Motion with Kai Waehner
- Sistema de OLAP em Tempo Real: ClickHouse para Big Data e Queries Ad-Hoc
- Conferência Snowflake Summit 2022: Anúncios e Novidades por Mateus Oliveira
- Conferência Data+AI Summit 2022 da Databricks: Anúncios e Novidades por Luan Moreno
- O Desafio da Engenharia de Dados com Filipe Comparini, Head de Dados da LuizaLabs
- Apache Cassandra: O Banco de Dados NoSQL de Missão Crítica e Tempo-Real da Fortune 500
- O Desafio da Engenharia de Dados com Wellington C. Faria, Lead Analytics Engineer do NuBank
- Apache Pulsar: A Plataforma de Streaming Distribuída mais Completa do Mercado com Samuel Matioli
- Cloudera CDP: Plataforma de Cloud Híbrida para Dados
- Casos de Uso e Experiências de Campo com Apache Spark
- Big Data no Google GCP com Lucas Magalhães
- Big Data na Amazon AWS com Carlos Barbosa
- Big Data no Microsoft Azure com Vitor Henrique Mendes
- Casos de Uso e Experiência de Campo com Apache Kafka
- Apache Kafka é um Banco de Dados Relacional?
- Big Data no Kubernetes
- Delta Lake: Storage Engine Escalável para Construção de um Data Lakehouse
- Data Warehouse vs. Data Lakehouse - Casos de Uso e Comparações com Orlando Marley
- Postgres como Plataforma de Dados Estruturados e Semi-Estruturados com Raul Oliveira
- The Brighter Side of COVID-19 for Data Engineers [English Tips]
- Strimzi - Adding Intelligence on Your Kafka on Kubernetes Deployment with Jakub Scholz
- The Rise of Apache Airflow for Data Pipeline Orchestration with Marc Lamberti
- Carreira de Data Engineer Internacional
- Engines de Processamento de Big Data - [Python e SQL]
- Processamento de Dados com Apache Spark - Casos de Uso, Problemas Comuns e Melhores Práticas
- Integração de Dados com Kafka Connect no Kubernetes [Strimzi Operator]
- Dw vs. Data Lake vs. MDW vs. Data Lakehouse para Pipeline de Dados
- Azure Flagship Product - Synapse Analytics as De-Facto to Build Data Pipelines and Reliable [MDWs]
- YugaByteDB - Banco de Dados Distribuído com Consistência e Transações [ACID]
- Arquiteturas de Big Data - Lambda, Kappa e Layered [Camadas]
- Apache Kafka no Kubernetes [Strimzi Operator]