¿Cómo puedo ser experta en Big Data, Analytics, Machine Learning?

infraestructura necesaria para Big Data

Lo primero, es que incluyes 3 cosas que son distintas, y que conseguir conocerlas bien, pues te llevará mucho tiempo. Es mejor que te centres en una de ellas para comenzar.

  1. Desde el punto de vista técnico, Big Data es sobre procesamiento distribuido. Lo que se hace es paralelizar procesos, de una manera sencilla.
  2. Analytics es sobre estadística aplicada a las empresas. Es algo que ya se venía haciendo pero está viviendo un auge con la llegada de las “Data Driven Companies”.
  3. Machine Learning es aprendizaje automático. Se basa en utilizar algoritmos para conseguir modelos que, entrenados con un conjunto existente de datos, consiga predecir un comportamiento en base a unos datos de entrada.

Para cualquiera de ellos, hay muchos recursos gratuitos online, sobre todo los MOOCs (Massive Open Online Course). Son cursos gratuitos online, en la que puedes pagar si quieres/necesites que te den un certificado de completud.

Respecto a la infraestructura necesaria para Big Data, las empresas están utilizando 2 enfoques:

  • on premise, que significa que los servidores donde se instala el software es propiedad de la empresa
  • cloud, que significa que los servidores son propiedad de otra empresa, que los alquila, y se paga por el uso de dichos servidores.

Según el enfoque, las herramientas a utilizar no son las mismas. En “On Premise”, se suele utilizar una distribución Hadoop (la dominante es Cloudera, sobre todo tras absorver a Hortonworks). Puedes bajarte una máquina virtual desde su página web que ya tiene todo el software instalado, y lo ejecutas en tu ordenador, y ya tienes un entorno big data en tu ordenador.

Siguiendo con este enfoque “on premise”, el aprendizaje tiene que centrarse en Hadoop. Aquí los elementos clave son HDFS (un sistema de ficheros distribuido), Hive (una base de datos sobre esos ficheros, que permite ejecutar SQL sobre los ficheros) y Spark (un framework para escribir aplicaciones para procesar los datos almacenados en HDFS).

Para ello, tienes un curso en Coursera que lo da la gente de Yandex, y tiene 2 partes:

  1. por un lado, una introducción a HDFS y Spark => Big Data Essentials: HDFS, MapReduce and Spark RDD | Coursera

por otro lado, un curso ya avanzado en Spark => Big Data Analysis: Hive, Spark SQL, DataFrames and GraphFrames | Coursera

Más o menos cubre los componentes clave de Hadoop. Faltaría algunos aspectos, que cubrirían la ingesta de datos (ya vengan de una base de datos, que se utiliza Sqoop, ya vengan de una cola de mensajes como Kafka). Pero para comenzar, creo que lo mejor es acotar los conocimientos a algo que puedas manejar de forma cómoda.

Sabiendo HDFS, Hive y Spark, puedes ya encontrar trabajo como desarrolladora Big Data sin problemas.

Una puntualización: asumo que sabes un lenguaje de programación como Java o Python, que son los que más se utilizan. En el caso de Spark, se utiliza alguno de esos 2 o Scala, que es el lenguaje en el que está construido Spark. Si no sabeas un lenguaje, lo primero sería aprender uno de los que te indico (yo utilizo Java).

Respecto al Cloud: los principales proveedores serían Amazon AWS, Microsoft Azure y Google Cloud.

Cada uno de ellos tiene certificaciones que puedes preparar mediante cursos y manuales.

Amazon es la más extendida mundialmente, y tiene la siguiente certificación

Certificación de AWS Certified Big Data – Specialty

 

En España, tiene mucho mercado Azure, por lo tanto, su certificacion sería

Microsoft Certified: Azure Data Engineer Associate – Learn

 

En google, su certificación sería

Certificación Professional Data Engineer | Google Cloud Certifications

 

Comentar que el big data en cloud es un poco diferente, ya que cada proveedor (Amazon, Microsoft, Google) intenta llevarte a sus herramientas y software, que son similares pero tienes que aprender como utilizarlas en cada proveedor.

Ya hemos visto Big Data y como puedes obtener conocimientos para desarrollarte profesionalmente. Hoy en día, se suelen llamar a estos perfiles “Data Engineer”, ya que se dedican fundamentalmente a obtener y procesar los datos que luego se utilizarán para obtener resultados.

 

Tras el Big Data, preguntabas sobre Analytics. Aquí es fundamentalmente conocer bien estadística, y tiene un enfoque más clásico. Desde el punto de vista tecnológico, tendrías que conocer SQL, que es el lenguaje de bases de datos, para poder recuperar los datos que los “data engineers” han dejado en Hive. Tienes también varias certificaciones, pero no son tan estándar, ya que dentro de “analytics” se introducen muchas cosas. Desde mi punto de vista, es un trabajo de Científico de Datos, con lo cuál, tendrías que por una parte saber programar bien (para poder obtener y validar datos, limpiar los datos, etc) y por otra, mucha estadística (regresión, clusterización, clasificacion).

Una certificación útil y que tiene un buen manual para seguir sería

 

Deja un comentario