En este artículo vamos a presentar la manera de procesar de grandes volúmenes de datos que permite transformar los datos en conocimiento.

Para ello, hay que ver tres grandes cosas:

1) La propia metodología de procesamiento de datos.

2) Cuáles son los componentes de esta metodología a alto nivel.

3) Los puntos de éxito para que esta metodología sea una realidad en las organizaciones.

Empezamos con la metodología de procesamiento de grandes volúmenes de datos que está compuesta por 8 fases que son:

1) La comprensión del negocio: en la que se pretende saber cuál es el problema y cuál es el objetivo por abordar. Por ejemplo, el problema puede ser que tus clientes dejan de utilizar los servicios o comprar tus productos, por lo que deseas poder abordar la fuga de clientes antes de que se vayan.

2) La comprensión de datos: Aquí, queremos saber cuáles son los datos necesarios para poder resolver el reto.Continuando con el ejemplo anterior, en ese caso los datos adecuados para abordar el reto consisten en recopilar el histórico de los clientes que ya han dejado de interactuar con nosotros; cuanta más información se recopile sobre los mismos, mejor informados estaremos, y mejor será nuestro modelo.

3) La plataforma tecnológica: ¿dónde vamos a trabajar? ¿Qué tecnología necesitamos? ¿Qué componentes necesitamos?Continuando con el ejemplo anterior, en este caso necesitaremos entender cómo estarán estructurados los datos históricos, en qué sistemas, cómo y dónde estás los datos que se manejan actualmente, para a partir de estas informaciones, saber con qué herramientas es preferible trabajar. Por ejemplo, en caso de disponer de un gran volumen de datos, es posible que deseemos trabajar en la nube, contratando sistemas de almacenamiento y de procesamiento muy grandes, para dar soporte a toda esta información de la que disponemos.

4) El tratamiento de datos: Una vez que tengamos los datos,¿cómo los tenemos que procesar? ¿Cómo los vamos a integrar? ¿Qué vamos a hacer con ellos? Siguiendo con el ejemplo, ya hemos decidido cómo vamos a trabajar con los datos, es decir, que plataforma tecnológica es la más apropiada, pero ahora tenemos que empezar. Primero corresponde identificar cuáles serán las fuentes de información y analizar su conveniencia; es decir, de toda la información que hemos recopilado para la fuga de clientes,cuál es la que nos interesa integrar, cómo queremos que se relacionen los datos históricos con los actuales, etc.

En nuestro siguiente artículo veremos las siguientes 4 fases para el procesamiento de grandes volúmenes de datos en la implementación de proyectos Big Data.

Sobre el autor: Anddy I. Cabrera Carela es experto en IA, con un grado certificado por la Universidad de Harvard en Machine Learning. Además, es matemático, programador y estadístico.