×

Programa de formació

Cloudera

Dates

27/09/2019 - 30/11/2019 (Barcelona)

Horari

divendres (16:00h - 21:00h) i dissabte (09:00h - 14:00h)

Duració

80 hores presencials

Data límit d'inscripció

20/09/2019

Prova de selecció

20/09/2019 a les 16:00h

Exàmen de certificació inclòs *

CCA175 CCA Spark and Hadoop Developer

Lloc d'impartició

PUE - Av. Diagonal, 98-100 (Barcelona, 08019)

Places disponibles

24 places

* Vàlid per a membres del programa PUE Alumni que finalitzin el curs amb aprofitament.
    |
  • Sobre aquest curs
  • |
  • A qui va dirigit
  • |
  • Objectius
  • |
  • Certificació associada
  • |
  • Com puc participar-hi?
  • |
  • Continguts
  • |

Sobre aquest curs

Aquest curs ofereix els conceptes clau i l’experiència que als participants necessiten per introduir i processar dades en un clúster Hadoop utilitzant les eines i tècnica més actuals tals com Spark 2 (incloent Spark Streaming i Spark SQL), Flume, Kafka i Sqoop. Aquest curs proporciona la millor preparació pels desafiaments del món real que enfronten els desenvolupadors de Hadoop. Amb Spark 2, els desenvolupadors poden escriure sofisticades aplicacions en paral·lel per prendre millors decisions, més ràpides i accions interactives, aplicades a una àmplia varietat de casos d’ús, arquitectures i industries.

 

Cloudera és la companyia lider en el software i els serveis basats en Apache Hadoop i ofereix una potent plataforma que permet a les empreses i organitzacions analitzar totes les seves dades –estructurades con sense estructurar – i obtenir una visió i capacitat d’anàlisis sense precedents.

 

La present formació prepara als participants per obtenir la certificació com Cloudera Certified Associate Spark and Hadoop Developer (CCA Spark and Hadoop Developer) que acredita les competències que un professional TIC disposa en el desenvolupament i manteniment de projectes Apache Spark i Apache Hadoop.

A qui va dirigit

El curs va dirigit a desenvolupadors i enginyers amb experiència en programació. Per a un màxim aprofitament del curs, és necessari tenir coneixements bàsics de Linux.

D’altra banda, no es requereix tenir coneixements previs de Hadoop.

Objectius

Els objectius del curs consisteixen en:

  • Conèixer l’ús del Spark Shell per anàlisi interactiu de dades
  • Conèixer les característiques del conjunt de dades distribuïdes resilients de Spark
  • Executar Spark en un cluster
  • Programar paral·lelament amb Spark
  • Crear aplicacions Spark
  • Processar dades en streaming amb Spark

Certificació associada

Després de la realització del present curs oficial l’alumne estarà preparat per superar els exàmens de certificació oficial:

Informació important: examen oficial de certificació inclòs a la subvenció del curs per als membres del programa PUE Alumni que finalitzin el curs amb aprofitament.

Com puc participar-hi?

Un cop t’hagis preinscrit al curs, hauràs de fer la corresponent prova de selecció, que té com objectiu seleccionar aquelles persones candidates que puguin aprofitar més el curs, en base als seus coneixements previs i experiència professional.

El dia de la prova de selecció, hauràs de portar la següent documentació:

  • Currículum Vitae actualitzat.
  • Fotocòpia del DNI.
  • Fotocòpia de la capçalera de la darrera nòmina, en cas d’estar treballant.
  • Fotocòpia de la demanda d’ocupació (DARDO), en cas d’estar desocupat.

Podeu contactar amb nosaltres enviant-nos un email a consorci@pue.es o trucant-nos al 93.206.02.49 indicant que el motiu de la vostra trucada és en relació a un projecte de formació subvencionada.

Continguts

Mòdul 1. Introducció a Linux

Mòdul 2. Introducció a la programació en Python

  • Introducció a Python
  • Variables en Python
  • Col·leccions en Python
  • Flux de control en Python
  • Estructura de Programació en Python
  • Treballar llibreries amb Python
  • Conclusió

Mòdul 3. Introducció a la programació Scala

  • Introducció a Scala
  • Processament de Datos
  • La motivació de Scala
  • Bàsics Scala
  • Treballar amb tipus de dades
  • Agrupació de dades
  • Flux de control en Scala
  • Ús i creació de llibreries
  • Conclusió

Mòdul 4. Introducció a Apache Hadoop i a l’ecosistema Hadoop

  • Aspectes generals d’Apache Hadoop
  • Emmagatzematge i ingesta de dades
  • Procés de dades
  • Anàlisis de dades i exploració
  • Altres eines de l’ecosistema

Mòdul 5. Arxius d’emmagatzematge d’Apache Hadoop

  • Components del Clúster Apache Hadoop
  • Arquitectura HDFS
  • Ús de HDFS

Mòdul 6. Procés de dades en un clúster d’Apache Hadoop

  • Arquitectura YARN
  • Treballant amb YARN

Mòdul 7. Fonaments d’Apache Spark

  • Què es Apache Spark?
  • Arrencament del Spark Shell
  • Ús de Spark Shell
  • Primers passos amb Datasets i Dataframes
  • Operacions en Dataframe

Mòdul 8. Treballar amb Dataframes i Schemas

  • Crear Dataframes a partir de Data Sources
  • Guardar DataFrames en Data Sources
  • DataFrame Schemas
  • Rapidesa i lentitud de execució

Mòdul 9. Anàlisis de dades amb consultes de DataFrame

  • Consultar DataFrames utilitzant expressions de columna
  • Agrupació i agregació de consultes
  • Unió de DataFrames

Mòdul 10. RDDs: Sumari

  • Vista general sobre RDD
  • RDD Data Sources
  • Creant i guardant RDDs
  • Operacions amb RDDs

Mòdul 11. Transformació de dades amb RDDs

  • Escriptura i pas de funcions de transformació
  • Execucions de transformació
  • Conversió entre RDDs i DataFrames

Mòdul 12. Agregació de dades amb Pair RDDs

  • Key-Value Pair RDDs
  • Map-Reduce
  • Altres operacions Pair RDD

Mòdul 13. Consulta i vistes de taules amb Spark SQL

  • Consulta de taules amb Spark con SQL
  • Consulta de fitxers i vistes
  • L’API d’organització (Catalog API)
  • Comparació de Spark SQL, Impala i Hive-on-Spark

Mòdul 14. Creació, configuració i execució d’aplicacions Spark

  • Creació d’una aplicació Spark
  • Compilar i executar l’aplicació
  • Application Deployment Mode
  • L’interfaç Spark Application Web UI
  • Configuració de les propietats de l’aplicació

Mòdul 15. Processament distribuït

  • Apache Spark en un Clúster
  • Particions RDD
  • Exemple: Particions de consultes
  • Etapes i Tasques
  • Planificació de tasques d’execució

Mòdul 16. Persistència de dades distribuïdes

  • Persistència en Datasets i DataFrames
  • Persistència en nivells d’emmagatzematge
  • Visualització de RDDs persistents

Mòdul 17. Patrons comuns al processar dades con Spark

  • Casos comuns d’ús de Spark
  • Algoritmes d’iteració en Apache Spark
  • Machine Learning

Mòdul 18. Spark Streaming: Introducció a DStreams

  • Vista general de Spark Streaming
  • DStreams
  • Desenvolupament d’aplicacions en Streaming

Mòdul 19. Spark Streaming: processament de múltiples lots

  • Operacions Multi-Batch
  • Time Slicing
  • Operacions d’estat
  • Operacions Sliding Window
  • Vista prèvia: Streaming estructurat

Mòdul 20. Apache Spark Streaming: Data Sources

  • Vista general de Streaming Data Source
  • Apache Flume i Apache Kafka Data Sources

Fabricants participants

Top