Tengo datos, ¿Cómo empiezo a analizarlos?

Un buen día, una empresa te ofrece un conjunto de datos, y te dice:

“Queremos que utilicéis analítica avanzada para extraer patrones, convertir nuestros datos en información, la información en inteligencia y generar valor para nuestro negocio, utilizando para ello herramientas big data y a tus mejores científicos de datos“.

No lo podemos negar, el análisis de datos está de moda, y viene acompañada de un buen conjunto de neologismos utilizados a discreción. En particular, la analítica avanzada puede tener diferentes significados dependiendo de quien la utilice. En este artículo daremos una visión general de las diferentes formas de realizar analítica (avanzada o no) de datos desde tres perspectivas: el objetivo del análisis, la naturaleza de los datos y las técnicas utilizadas en los análisis.

Objetivo del análisis

Dependiendo del objetivo del análisis, se pueden definir tres tipos diferentes de análisis:

  • El análisis descriptivo permite realizar una primera inspección de los datos, calculando estadísticas sobre tendencias, variabilidad de datos y visualizando la información a través de diferentes gráficas como histogramas, gráficas de lineas, mapas de calor, etc. Supongamos el caso de un sistema de análisis médico, que pretende reducir la probabilidad de aparición de cierta enfermedad en un conjunto de pacientes. Con los datos de este grupo de pacientes, se podría observar la media de edad de determinados grupos, la dispersión de los pacientes de acuerdo a su lugar de residencia, etc.

  • El análisis predictivo permite la predicción de atributos no vistos anteriormente a través de la creación de modelos utilizando estadística o técnicas de aprendizaje automático. Continuando con el ejemplo anterior, se podría predecir qué pacientes tienen más riesgo de sufrir cierta enfermedad de acuerdo con diferentes atributos como edad, altura, peso, sedentarismo, horas de sueño, resultados de análisis de sangre, historial clínico, etc.

  • El análisis prescriptivo recomienda una acción para ser tomada de acuerdo a los resultados del análisis predictivo con el objetivo de maximizar un criterio. En el ejemplo anterior, se proveería al sistema con un conjunto de acciones posibles como la modificación de la dieta, elaboración de un plan de ejercicios, el suministro de ciertos medicamentos, etc. y el sistema sería capaz de decidir qué acciones pueden llevarse acabo para minimizar la probabilidad de padecer cierta enfermedad.

Estos tres tipos de análisis suelen asociarse con la obtención de datos, información e inteligencia dentro del ciclo de análisis de inteligencia como puede verse en la figura.

Naturaleza de los datos

Los formatos y tipos de datos que podemos analizar son muy variados, no siempre la información está estructurada como en las bases de datos, archivos Excel, JSON o CSV. Este es el caso del texto, imágenes, audio y vídeo.

El análisis de texto es el ejemplo clásico de información no estructurada. Para este tipo de datos, se pueden aplicar diferentes algoritmos para identificar el idioma, traducir el texto a diferentes idiomas, extraer las entidades como los nombres de persona, lugares y organizaciones, extraer las relaciones entre esas entidades, analizar el sentimiento u opinión global de un documento o particular de una entidad, clasificar el texto en un conjunto de categorías predefinida y analizar las temáticas, desconocidas a priori, de un conjunto de documentos.

El análisis de imágen, también conocido por el término en inglés computer vision, pretende automatizar las tareas que el sistema visual humano puede hacer, como el reconocimiento de caras, reconocimiento de lugares, y de forma general el reconocimiento de objetos. Algunos análisis utilizan algoritmos especializados para estimación de población a partir de una imagen, la detección de defectos en los procesos de fabricación o la detección de cáncer de mama a partir de una mamografía.

El análisis de audio es un subconjunto dentro del análisis de señales para señales dentro del espectro audible. Algunos de los análisis más comunes incluyen el análisis del discurso donde se transcribe la una conversación de voz a texto, el reconocimiento del hablante que pretende detectar cuántas y qué personas están hablando, el reconocimiento de canciones como el popular servicio Shazam y, de forma general, el reconocimiento de sonidos, donde el sistema determina mediante clasificación si el sonido es una alarma, un motor de coche, etc.

El análisis de vídeo es utilizado para el análisis del movimiento permitiendo definir trayectorias o identificar eventos siendo la vídeo vigilancia una de las aplicaciones más habituales.

Más allá del formato de los datos, de entre los datos estructurados podemos encontrar datos que tienen una estructura particular y que por su naturaleza nos permite hacer un análisis especializado. Este es en el caso del análisis de grafos que nos permite detectar fraude, analizar redes sociales, o generar modelos de conocimiento.

A partir de datos que poseen una determinada latitud y longitud podemos realizar un análisis geoespacial para detectar trayectorias, predecir las necesidades de transporte de una ciudad, o analizar la dispersión de determinada enfermedad.

Para datos que aplican a determinados momentos en el tiempo, se puede realizar un análisis de series temporales que nos permite caracterizar una serie mediante sus componentes de tendencia y estacionalidad y predecir valores futuros utilizando diferentes herramientas estadísticas y algorítmicas.

Técnicas para el análisis

Tradicionalmente el análisis de datos ha estado basado en la estadística clásica. Desde hace algunos años, los algoritmos de aprendizaje automático han complementado el análisis estadístico clásico. Es difícil determinar dónde comienza la estadística y dónde acaba el aprendizaje automático, o si una disciplina es un subconjunto de la otra.

Desde un punto de vista práctico todas las técnicas nos ayudarán a comprender nuestros datos independientemente de si se consideran estadística o aprendizaje automático.

Las técnicas más sencillas para describir nuestros datos son el cálculo de la tendencia central a través de métricas como la media, moda y mediana, la observación de la dispersión a través de la varianza y la desviación típica o la forma de la distribución mediante las métricas de asimetría y curtosis.

A través de técnicas más avanzadas, podemos crear modelos para caracterizar nuestros datos y predecir valores futuros. Algunas de estas técnicas están basadas en regresión, como la regresión lineal o logística, mientras que otras se basan en algoritmos de aprendizaje automático como las redes neuronales, árboles de decisión o las máquinas de soporte vectorial.

La elección de qué técnicas utilizar para nuestro análisis dependerá de las dos perspectivas anteriores: el objetivo de nuestro análisis y la naturaleza de nuestros datos.

Para concluir

En este artículo hemos dado una visión general de por dónde podemos empezar a analizar nuestros datos. A partir de ahora si una empresa nos ofrece analizar sus datos, debemos especificar qué aspectos se quieren analizar, definiendo los objetivos del análisis, observando la naturaleza de los datos y eligiendo un conjunto de técnicas que nos ayuden en nuestro análisis.

Acotando el alcance del análisis podemos gestionar mejor las expectativas de nuestros clientes y ofrecerles un servicio adaptado a sus necesidades.

Israel Varea Rojo

Estudié Ingeniería en Informática y Máster en Computación Avanzada en la UAM. Soy un apasionado por la Inteligencia Artificial, NLP, Smart Home, Smart Cities y series de TV. La Inteligencia Artificial está aquí para ayudarnos y como bien decía Dijkstra: «La pregunta de si un computador puede pensar no es más interesante que la pregunta de si un submarino puede nadar».