Smart Data: La digitalización del BigData

 

Un poco de historia nunca viene mal. A principios de los años 80, el mundo analógico sufrió un gran cambio con la aparición del CD, un revolucionario formato que conseguía perdurar la calidad del sonido en el tiempo sin desgaste. La idea era sencilla, la digitalización del sonido analógico utilizando distintos algoritmos para reducir la señal en una serie de valores finitos, suficientes para definir todo el espectro. De esta manera se reducía al máximo el ruido generado por el paso del tiempo.

Además, este sistema de sampleo reducía la distorsión ocasionada por la amplificación de la señal, bastante débil, extraída del disco de vinilo y eliminaba las distorsiones armónicas, fruto del eco armónico de la señal.

En el mundo del análisis de datos suele pasar algo parecido. Cuando se realiza un procesamiento de datos se tiende a utilizar el montante total de información, y cruzada con cuantas más fuentes de información, mejor. Esto hace que pequeñas inconsistencias en los datos, errores en la obtención de algunos valores, ruido ocasional u otros factores desvirtúen los resultados obtenidos.

Un buen ejemplo de esto, sería un usuario que entra en una web de compras en la que el sistema, utilizando el historial completo de compras del usuario e incluso el historial de compras de usuarios similares, le propone que compre cerveza y patatas fritas, dado que es lo que habitualmente compra tanto él como otros usuarios parecidos a él.

Sin embargo, si hacemos un análisis selectivo que otorgue prioridad a las compras realizadas otros años en fechas similares, hubiésemos podido descubrir que los años anteriores por estas mismas fechas, la pauta de compra del usuario cambiaba hacia un abrigo con estampados, ramos de flores o un best seller…¡Porque en unos días es el cumpleaños de su madre y estaba buscándole un regalo!

Si hubiésemos sido capaces de procesar este “ruido ocasional” y centrarnos en el obviado comportamiento habitual del usuario, hubiésemos podido hacer una recomendación orientada o incluso adelantarnos y enviarle días antes una oferta regalo “para mamá”. Justo del mismo modo que harían los técnicos de sonido al realizar una prueba acústica en un concierto, en la que analizan las distorsiones armónicas de la música para obtener el mejor sonido global.

Esto nos demuestra que los datos por sí mismos no son inteligentes ni valiosos y que es necesario realizarnos las preguntas correctas para resolver el problema planteado. Esto es lo que se conoce como Smart Data, el uso inteligente de los datos necesarios para un fin.

Smart Data como alternativa a simplificar procesos.

Smart Data se centra principalmente en el Valor de los datos utilizando el subconjunto de fuentes y datos que ofrecen una información real y veraz, y sólo aquella información que es relevante para el problema que se intenta resolver.

Si aplicamos Smart Data en nuestros procesos en vez de Big Data, es decir, utilizando un subconjunto de datos efectivamente relevantes, limpiados y seleccionados para aumentar la velocidad de proceso, que son suficientes para representar todo el espectro de datos relevantes sin hacer uso del total, conseguiremos reducir el ruido generado por variables mal correladas o por comportamientos puntuales, mejoramos la velocidad de procesamiento y en muchos casos reduciremos la complejidad de los procesos a realizar.

Mi abuelo me dijo una vez: “Nunca te acostarás sin saber una cosa más” , desde entonces esa frase ha marcado siempre mi día a día. Ese afán autodidacta, unido a las ganas de obtener el mejor resultado de todo lo que hago, me ha llevado a desarrollar una apasionante carrera en el mundo de las tecnologías de análisis de datos y a formar parte del equipo de innovación tecnológica de FutureSpace como Especialista Big Data.