Tools

Las herramientas disponibles a usar en el desarrollo en la ciencia de datos abarcan un abanico muy amplio. Tanto por ser una ciencia multi-disciplinar como por la gran cantidad de opciones existentes en cada una de sus sub-partes es fácil perderse en un mar de opciones. Es por ello importante tener claras las preferencias de cada uno, invertir tiempo en probar y seleccionar aquellas herramientas que mas se ajustan a nuestras necesidades en cada momento.

Perderse es muy fácil, es decir, usar un día por ejemplo una herramienta de programación y a la semana probar otra puede ser contraproducente pues al final no se llega a dominar del todo ninguna de ellas. Establecer una metodología clara y unas herramientas para llevarlas a cabo deberían ser el primer paso a la hora de desarrollar en este area.

No obstante, no conviene ser extremadamente estricto en la “fidelidad” hacia nuestro método pues también es cierto que la ciencia de la computación es terriblemente cambiante y se está adaptando y cambiando en cada momento. Cada día aparecen nuevas herramientas, técnicas y frameworks muy interesantes que sería un completo error dejar escapar.

Las herramientas a tener en cuenta para un proyecto de Data Science pueden ser clasificadas por disciplinas, tareas en el pipeline de un proyecto y por su propia naturaleza. En este último punto,el abanico es muy amplio (software pre-compilado, snippets, scripts de programación) pero destaco sobre la enorme proliferación en los últimos tiempo de los notebooks (Python, R, etc) tanto online como en local.

Esta es la compilación de herramientas que normalmente uso:


Table of contents