La ciencia de datos es una industria floreciente. Los países y empresas de todo el mundo están experimentando continuamente un alza en la cantidad de datos recopilados y están decididos a contratar a expertos que puedan trabajar en sus datos y mejorar sus negocios.
Sin embargo, a los empleadores les resulta difícil encontrar el perfil que buscan para su empresa.
Se trata de encontrar perfiles multidisciplinarios que involucran habilidades diferentes de las que poseen los trabajadores existentes e, incluso, de los que emergen en la actualidad.
Dado esto, es de esperar que las mejores oportunidades laborales incluirán títulos como científico de datos, ingeniero de datos y analistas de negocios.
En cuanto al marketing, la ciencia de datos y la analítica están impulsando grandes cambios en el mismo. La ciencia de datos trae nuevas posibilidades al marketing que ayudan a acercarse al cliente y avanzar a la competencia.
Dada la novedad de los perfiles, con frecuencia se confunden los términos científico de datos e ingeniero de datos. Y algunos terminan concluyendo que todas estas personas hacen el mismo trabajo, sólo que sus nombres son diferentes!!
A continuación analizamos ambos perfiles.
Tabla de contenidos
Perfiles en la ciencia de datos
Científico de datos – Data scientists
Si la ciencia es un método sistemático mediante el cual las personas estudian y explican fenómenos en un dominio específico, entonces se puede pensar en la ciencia de datos como el dominio científico que se dedica al descubrimiento del conocimiento mediante el análisis de datos.
Con respecto a la ciencia de datos, el término dominio específico se refiere a la industria, sector o tema que estamos explorando con los métodos de la ciencia de datos.
Los científicos utilizan técnicas matemáticas y enfoques algorítmicos para derivar soluciones a complejos problemas empresariales y científicos.
Los practicantes de la Ciencia de Datos usan sus métodos para obtener conocimientos e ideas que de otro modo serían inalcanzables.
Conocimientos
Mientras que los científicos de datos a menudo provienen de diferentes antecedentes educativos y experiencia laboral, la mayoría deben ser competentes en, o, en un caso ideal ser expertos en, cuatro áreas fundamentales.
En ningún orden particular de prioridad o importancia, estos son:
- Dominio empresarial
- Estadística y probabilidad
- Informática y programación de software
- Comunicación escrita y verbal
Hay otras habilidades y experiencias que son altamente deseables, pero estas son los cuatro pilares de un científicos de datos.
En realidad, las personas suelen ser competentes en uno o dos de estos pilares, pero por lo general no son igualmente competentes en los cuatro.
Si, como empresa o empleador, encuentras un científico de datos que sea realmente experto en todos ellos, esencialmente has encontrado un unicornio.
Objetivos y tareas habituales del científico de datos
Aquí hay una breve lista de las tareas habituales en la ciencia de datos:
- Predicción (predecir un valor basado en entradas)
- Clasificación (por ejemplo, spam o no spam)
- Recomendaciones (por ejemplo, recomendaciones de Amazon y Netflix)
- Detección y agrupación de patrones (por ejemplo, clasificación sin clases conocidas)
- Detección de anomalías (por ejemplo, detección del fraude)
- Reconocimiento (imagen, texto, audio, video, facial, …)
- Representación de la información (a través de paneles, informes, visualizaciones, …)
- Procesos automatizados y toma de decisiones (por ejemplo, aprobación de tarjeta de crédito)
- Puntuación y clasificación (por ejemplo, puntuación crediticia)
- Segmentación (por ejemplo, marketing demográfico)
- Optimización (por ejemplo, gestión de riesgos)
- Pronósticos (por ejemplo, ventas e ingresos)
Si bien, a primera vista, la experiencia en el dominio de negocios puede parecer que no sea un problema crítico, resulta ser lo contrario.
A menudo los miembros de la alta dirección tienen antecedentes educativos centrados en los negocios, como un MBA.
Si bien muchos ejecutivos son personas bien preparadas para los negocios, pueden no estar bien versados en todas las herramientas, técnicas y algoritmos disponibles en la ciencia de datos (por ejemplo, análisis estadístico, aprendizaje automático, inteligencia artificial, etc.).
Dado esto, puede que no sean capaces de decirle a un científico de datos lo que quisieran como producto final, o sugerir las fuentes de datos, las características (variables) y la ruta para llegar allí.
Herramientas
…
Normalmente no es necesario ser un programador experto en todos estos entornos, pero R, Python y SQL son definitivamente clave.
Escalafón profesional
De menor a mayor rango:
- Científico de datos Junior
- Científico de datos
- Científico de datos Senior
- Científico de datos Director
Ingeniero de datos – Data engineers
Si la ingeniería es la práctica de utilizar la ciencia y la tecnología para diseñar y construir sistemas que resuelven problemas, entonces se puede pensar en la ingeniería de datos como el dominio de la ingeniería que se dedica a superar los cuellos de botella en el procesamiento de datos y los problemas en el manejo de los mismos para aplicaciones que utilizan big data.
En definitiva, los ingenieros de datos utilizan las destrezas de la informática y la ingeniería de sistemas para resolver problemas referentes al manejo y manipulación
del big data.
Conocimientos
Los ingenieros de datos son los profesionales que preparan la infraestructura que alberga el big data, la cual permite a los científicos de datos realizar su labor.
Son ingenieros de software que diseñan, construyen, integran datos de varias fuentes y administran los grandes datos.
Luego, escriben consultas complejas contra los mismos, se aseguran de que resulte de fácil acceso, que funcione sin problemas. Su objetivo es optimizar el rendimiento del gran ecosistema de datos de la empresa.
También pueden ejecutar labores ETL (extracción, transformación y carga) en una capa por encima de los grandes conjuntos de datos y crear grandes almacenes de datos (warehouses) que pueden ser usados para reportar o analizar con las técnicas de la ciencia de datos.
Más allá de eso, debido a que los ingenieros de datos se centran más en el diseño y la arquitectura, por lo general no se espera que conozcan nada sobre aprendizaje automático o del proceso de análisis de datos.
Objetivos y tareas habituales del Data engineer
Usando las habilidades de la ingeniería de datos, puedes hacer cosas como:
- Construir aplicaciones de software a medida (SaaS) a gran escala.
- Construir y personalizar aplicaciones en Hadoop y MapReduce.
- Diseñar y construir bases de datos relacionales y arquitecturas distribuidas escalables para procesar grandes datos.
- Extracción, transformación y carga (ETL) de una base de datos a otra.
Los ingenieros de datos necesitan sólidas habilidades en informática, diseño de bases de datos e Ingeniería de software para poder realizar este tipo de trabajo.
Herramientas
La siguiente lista muestra las herramientas habituales usadas en la ingeniería de datos:
programación en general
Escalafón profesional
De menor a mayor rango:
- Ingeniero de datos
- Ingeniero de datos Senior
- Arquitecto BI
- Arquitecto de datos
MOOCs disponibles
He aquí una pequeña muestra de la oferta educativa que te puedes encontrar online y gratis:
Data Science Specialization Coursera
Data Science Fundamentals Big data University
Data Science Essentials Microsoft para EDX
Data Science Professional Project Microsoft para EDX
Introduction to Data Science in Python Coursera
Data-driven Decision Making Coursera
Google Cloud Platform for Systems Operations Professionals Specialization Google para Coursera
Big Data Analysis with Scala and Spark Coursera
Intro to Hadoop and MapReduce Udacity
Si no controlas el inglés, puedes seguirlos usando los subtítulos en español disponibles.
También te puede interesar tener en cuenta este tutorial completo sobre BigData publicado por guru99.com.
Creo que con esto ya tienes para comenzar en la Ciencia de Datos!!
Llévate esto
Los científicos e ingenieros de datos desempeñan un papel extremadamente importante y de alta demanda que puede tener un impacto significativo en la capacidad de un negocio para alcanzar sus objetivos, ya sean financieros, operativos, estratégicos, etc.
Las empresas en la actualidad, potencialmente, pueden colectar toneladas de datos.
Estos datos, a través de la extracción de información significativa y el descubrimiento de ideas útiles, pueden utilizarse para tomar decisiones críticas de negocios y generar un cambio significativo en los mismos.
También se puede utilizar para optimizar el éxito de la relación con el cliente, desde la adquisición y retención hasta el crecimiento de los mismos.