Perfiles en la ciencia de datos

La ciencia de datos es una industria floreciente. Los países y empresas de todo el mundo están experimentando continuamente un alza en la cantidad de datos recopilados y están decididos a contratar a expertos que puedan trabajar en sus datos y mejorar sus negocios.

Sin embargo, a los empleadores les resulta difícil encontrar el perfil que buscan para su empresa.

Se trata de encontrar perfiles multidisciplinarios que involucran habilidades diferentes de las que poseen los trabajadores existentes e, incluso, de los que emergen en la actualidad.

Dado esto, es de esperar que las mejores oportunidades laborales incluirán títulos como científico de datos, ingeniero de datos y analistas de negocios.

En cuanto al marketing, la ciencia de datos y la analítica están impulsando grandes cambios en el mismo. La ciencia de datos trae nuevas posibilidades al marketing que ayudan a acercarse al cliente y avanzar a la competencia.

Dada la novedad de los perfiles, con frecuencia se confunden los términos científico de datos e ingeniero de datos. Y algunos terminan concluyendo que todas estas personas hacen el mismo trabajo, sólo que sus nombres son diferentes!!

A continuación analizamos ambos perfiles.

Perfiles en la ciencia de datos

Científico de datos – Data scientists

data-scientists-ciencia-datos-int

Si la ciencia es un método sistemático mediante el cual las personas estudian y explican fenómenos en un dominio específico, entonces se puede pensar en la ciencia de datos como el dominio científico que se dedica al descubrimiento del conocimiento mediante el análisis de datos.

Con respecto a la ciencia de datos, el término dominio específico se refiere a la industria, sector o tema que estamos explorando con los métodos de la ciencia de datos.

Los científicos utilizan técnicas matemáticas y enfoques algorítmicos para derivar soluciones a complejos problemas empresariales y científicos.

Los practicantes de la Ciencia de Datos usan sus métodos para obtener conocimientos e ideas que de otro modo serían inalcanzables.

Conocimientos

Mientras que los científicos de datos a menudo provienen de diferentes antecedentes educativos y experiencia laboral, la mayoría deben ser competentes en, o, en un caso ideal ser expertos en, cuatro áreas fundamentales.

En ningún orden particular de prioridad o importancia, estos son:

  • Dominio empresarial
  • Estadística y probabilidad
  • Informática y programación de software
  • Comunicación escrita y verbal

Hay otras habilidades y experiencias que son altamente deseables, pero estas son los cuatro pilares de un científicos de datos.

En realidad, las personas suelen ser competentes en uno o dos de estos pilares, pero por lo general no son igualmente competentes en los cuatro.

Si, como empresa o empleador, encuentras un científico de datos que sea realmente experto en todos ellos, esencialmente has encontrado un unicornio.

Objetivos y tareas habituales del científico de datos

Aquí hay una breve lista de las tareas habituales en la ciencia de datos:

  • Predicción (predecir un valor basado en entradas)
  • Clasificación (por ejemplo, spam o no spam)
  • Recomendaciones (por ejemplo, recomendaciones de Amazon y Netflix)
  • Detección y agrupación de patrones (por ejemplo, clasificación sin clases conocidas)
  • Detección de anomalías (por ejemplo, detección del fraude)
  • Reconocimiento (imagen, texto, audio, video, facial, …)
  • Representación de la información (a través de paneles, informes, visualizaciones, …)
  • Procesos automatizados y toma de decisiones (por ejemplo, aprobación de tarjeta de crédito)
  • Puntuación y clasificación (por ejemplo, puntuación crediticia)
  • Segmentación (por ejemplo, marketing demográfico)
  • Optimización (por ejemplo, gestión de riesgos)
  • Pronósticos (por ejemplo, ventas e ingresos)

Si bien, a primera vista, la experiencia en el dominio de negocios puede parecer que no sea un problema crítico, resulta ser lo contrario.

A menudo los miembros de la alta dirección tienen antecedentes educativos centrados en los negocios, como un MBA.

Si bien muchos ejecutivos son personas bien preparadas para los negocios, pueden no estar bien versados en todas las herramientas, técnicas y algoritmos disponibles en la ciencia de datos (por ejemplo, análisis estadístico, aprendizaje automático, inteligencia artificial, etc.).

Dado esto, puede que no sean capaces de decirle a un científico de datos lo que quisieran como producto final, o sugerir las fuentes de datos, las características (variables) y la ruta para llegar allí.

Herramientas

R

Java

Python

SQL

Scala

Julia

SPSS

SPARK

Tableau

Normalmente no es necesario ser un programador experto en todos estos entornos, pero R, Python y SQL son definitivamente clave.

Escalafón profesional

De menor a mayor rango:

  • Científico de datos Junior
  • Científico de datos
  • Científico de datos Senior
  • Científico de datos Director

Ingeniero de datos – Data engineers

ingenieria de datos

Si la ingeniería es la práctica de utilizar la ciencia y la tecnología para diseñar y construir sistemas que resuelven problemas, entonces se puede pensar en la ingeniería de datos como el dominio de la ingeniería que se dedica a superar los cuellos de botella en el procesamiento de datos y los problemas en el manejo de los mismos para aplicaciones que utilizan big data.

En definitiva, los ingenieros de datos utilizan las destrezas de la informática y la ingeniería de sistemas para resolver problemas referentes al manejo y manipulación
del big data.

Conocimientos

Los ingenieros de datos son los profesionales que preparan la infraestructura que alberga el big data, la cual permite a los científicos de datos realizar su labor.

Son ingenieros de software que diseñan, construyen, integran datos de varias fuentes y administran los grandes datos.

Luego, escriben consultas complejas contra los mismos, se aseguran de que resulte de fácil acceso, que funcione sin problemas. Su objetivo es optimizar el rendimiento del gran ecosistema de datos de la empresa.

También pueden ejecutar labores ETL (extracción, transformación y carga) en una capa por encima de los grandes conjuntos de datos y crear grandes almacenes de datos (warehouses) que pueden ser usados para reportar o analizar con las técnicas de la ciencia de datos.

Más allá de eso, debido a que los ingenieros de datos se centran más en el diseño y la arquitectura, por lo general no se espera que conozcan nada sobre aprendizaje automático o del proceso de análisis de datos.

Objetivos y tareas habituales del Data engineer

Usando las habilidades de la ingeniería de datos, puedes hacer cosas como:

  • Construir aplicaciones de software a medida (SaaS) a gran escala.
  • Construir y personalizar aplicaciones en Hadoop y MapReduce.
  • Diseñar y construir bases de datos relacionales y arquitecturas distribuidas escalables para procesar grandes datos.
  • Extracción, transformación y carga (ETL) de una base de datos a otra.

Los ingenieros de datos necesitan sólidas habilidades en informática, diseño de bases de datos e Ingeniería de software para poder realizar este tipo de trabajo.

Herramientas

La siguiente lista muestra las herramientas habituales usadas en la ingeniería de datos:

Hadoop

MapReduce

Hive

Pig

MySQL

MongoDB

Cassandra

NoSQL

SQL

programación en general

Escalafón profesional

De menor a mayor rango:

  • Ingeniero de datos
  • Ingeniero de datos Senior
  • Arquitecto BI
  • Arquitecto de datos

MOOCs disponibles

He aquí una pequeña muestra de la oferta educativa que te puedes encontrar online y gratis:

Data Science Specialization Coursera

Data Science Fundamentals Big data University

Data Science Essentials Microsoft para EDX

Data Science Professional Project Microsoft para EDX

Introduction to Data Science in Python Coursera

Data-driven Decision Making Coursera

Google Cloud Platform for Systems Operations Professionals Specialization Google para Coursera

Big Data Analysis with Scala and Spark Coursera

Intro to Hadoop and MapReduce Udacity

Si no controlas el inglés, puedes seguirlos usando los subtítulos en español disponibles.

También te puede interesar tener en cuenta este tutorial completo sobre BigData publicado por guru99.com.

Creo que con esto ya tienes para comenzar en la Ciencia de Datos!!

Llévate esto

Los científicos e ingenieros de datos desempeñan un papel extremadamente importante y de alta demanda que puede tener un impacto significativo en la capacidad de un negocio para alcanzar sus objetivos, ya sean financieros, operativos, estratégicos, etc.

Las empresas en la actualidad, potencialmente, pueden colectar toneladas de datos.

Estos datos, a través de la extracción de información significativa y el descubrimiento de ideas útiles, pueden utilizarse para tomar decisiones críticas de negocios y generar un cambio significativo en los mismos.

También se puede utilizar para optimizar el éxito de la relación con el cliente,  desde la adquisición y retención hasta el crecimiento de los mismos.

Deja tu opinión

Nos alegran los comentarios constructivos, respestuosos y sin segundas intenciones.
Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *.
El envío de un comentario implica la aceptación de las condiciones de uso.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.