Visualización de datos

What it is and why we use it.

Empecemos, ¿qué es la visualización de datos?

Por visualización de datos (data visualization) nos referimos a técnicas de representación visual para comunicar información detallada obtenida de los datos. Su principal objetivo es analizar grandes conjuntos de datos en gráficos visuales para facilitar la interpretación de relaciones complejas en los datos. Suele definirse con otros términos que se usan indistintamente como gráficos de información, gráficos estadísticos y visualización de la información.

Es uno de los pasos del proceso de ciencia de los datos desarrollado por Joe Blitzstein, que sirve de marco para abordar tareas de ciencias de los datos. Tras la recopilación, procesamiento y creación de modelos con los datos, las relaciones tienen que visualizarse para poder obtener una conclusión.

También es un componente de una disciplina más amplia de arquitectura de presentación de datos (DPA), que pretende identificar, localizar, manipular, formatear y presentar los datos de la forma más eficiente posible.

¿Por qué es importante?

Según el World Economic ForumForo Económico Mundial, la producción mundial es de 2,5 trillones de bytes de datos al día, y el 90 % de los datos se han creado en los dos últimos años. Con un volumen de estas proporciones, es cada vez más difícil gestionar y hacer un uso inteligente de todos estos datos. Sería imposible para una sola persona indagar entre los datos línea a línea para detectar patrones distintivos y concluir observaciones relevantes. La proliferación de los datos puede gestionarse como parte del proceso de ciencia de los datos, que incluye su visualización.


Mejora de la información detallada

La visualización de datos puede ofrecer información detallada que la estadística descriptiva tradicional es incapaz de arrojar. Un ejemplo perfecto es el cuarteto de Anscombe, creado por Francis Anscombe en 1973. La ilustración incluye cuatro conjuntos de datos distintos con prácticamente idénticas varianza, media correlación entre las coordenadas X e Y, y líneas de regresión lineal. Sin embargo, los patrones son claramente distintos cuando se trazan en un gráfico. A continuación, se puede ver un modelo de regresión lineal que se aplicaría a los gráficos uno y tres, pero un modelo de regresión polinómica sería idóneo para el gráfico dos. Esta ilustración resalta por qué es importante visualizar los datos y no solo ceñirse a la estadística descriptiva.

anscombe’s quartet

Toma de decisiones más rápida

Las empresas que puedan recopilar y actuar rápidamente a partir de las conclusiones arrojadas por los datos serán más competitivas en el mercado porque podrán tomar decisiones mejor informadas antes que la competencia. Ser veloces es fundamental, y la visualización de datos ayuda a comprender las ingestas cantidades de datos al aplicar representaciones visuales a los datos. Esta capa de visualización suele residir en el primer nivel de un almacén o lago de datos, y permite a los usuarios detectar y explorar datos con una metodología tipo autoservicio. Por otra parte, además de favorecer la creatividad, evita que desde el equipo de TI se tengan que asignar tantos recursos para crear continuamente nuevos modelos.

Por ejemplo, imaginemos que un analista de marketing que trabaja con 20 plataformas y sistemas internos distintos necesita saber sin demora si una campaña de marketing está obteniendo resultados positivos. Una forma manual de hacerlo sería acceder a cada sistema, extraer un informe y combinar los datos para posteriormente analizarlos en Excel. El analista tendría entonces que buscar entre enjambres de parámetros y atributos, lo que dificultaría en gran medida llegar a alguna conclusión. Sin embargo, las plataformas de inteligencia empresarial (business intelligence, BI) modernas se conectan automáticamente a los orígenes de datos y a la capa de visualización de modo que el analista pueda desglosar los datos fácilmente para llegar a concluir de forma rápida los resultados de una determinada campaña.


Ejemplo básico

Imaginemos que es un comerciante y que desea comparar las ventas de chaquetas con las ventas de calcetines durante el año anterior. Tiene más de un método para presentar los datos, y las tablas son uno de los más comunes. Así quedaría:

La tabla anterior es muy útil si se trata de mostrar los precios. Sin embargo, es difícil apreciar de forma instantánea tendencias y lo que cuentan los datos.

Así es cómo quedarían los datos en una visualización de gráfico de líneas:

2 line graphs

Desde la visualización, es obvio de inmediato que las ventas de calcetines permanecen constantes, con pequeños repuntes en diciembre y junio. Por otro lado, las ventas de chaquetes obedecen más a la estacionalidad, y alcanzan su punto bajo en julio, para aumentar y conseguir el nivel máximo en diciembre, antes de descender mensualmente justo antes del otoño. Podría obtenerse esta misma información observando a la tabla, pero se tardaría bastante más. Imagine que tiene que interpretar una tabla con miles de entradas de datos.

La ciencia tras la visualización de datos

Procesamiento de la información

Para comprender la ciencia que subyace a la visualización de datos, tenemos antes que ver cómo las personas recopilamos y procesamos información. Con la colaboración Amos Tversky, Daniel Kahn llevó a cabo una investigación exhaustiva para estudiar cómo formamos los pensamientos, y concluyó que usamos uno de estos dos métodos:


System I

describe el procesamiento de los pensamientos que es rápido, automático e inconsciente. Usamos este método frecuentemente en nuestras vidas diarias y podemos lograr lo siguiente:

  • Leer texto de una señal
  • Determinar de dónde procede un sonido
  • Resolver 1+1
  • Diferenciar los colores
  • Montar en bici

System II

describe un pensamiento de cálculo, lento, lógico e infrecuente, e incluye:

  • Distinguir la diferencia de significado entre varias señales contiguas
  • Decir su número de teléfono
  • Comprender convenciones sociales complejas
  • Resolver 23x21

Con estos dos sistemas de pensamiento definidos, Kahn explica por qué a las personas les cuesta pensar en términos estadísticos. Asegura que el Sistema I de pensamiento se basa en la heurística, y prefiere resolver el volumen de estímulos que tenemos a diario. Un ejemplo de heurística aplicado al trabajo es el de un juez que ve un caso según jurisprudencia, es decir, solo en términos de casos históricos, a pesar de los matices y diferencias únicas del caso nuevo. Además, definió las siguientes tendencias:

  • Anclaje

  • Una tendencia a verse influido por números irrelevantes. Por ejemplo, esta tendencia la manipulan los negociadores expertos que ofrecen un precio bajo (el anclaje) que esperan obtener y entonces suben ligeramente por encima del anclaje.

  • Disponibilidad

  • La frecuencia a la que se producen los eventos en nuestra mente no son reflexiones acertadas de las probabilidades reales. Es un atajo mental; asumir que los eventos que pueden recordarse son más probables que ocurran.

  • Sustitución

  • Se refiere a nuestra tendencia a sustituir preguntas difíciles por otras más sencillas. Esta tendencia es la llamada falacia de la conjunción o “problema de Linda”. Este ejemplo plantea la pregunta:

    Linda tiene 31 años, es soltera, sincera y muy brillante. Ha estudiado filosofía. Como estudiante, estaba muy implicada con los problemas de discriminación y justicia social, y también participó en manifestaciones antinucleares.

    ¿Qué es más probable?

    1) Linda trabaja como cajera en un banco

    2) Linda trabaja como cajera en un banco y es una activista del movimiento feminista

    La mayoría de los participantes en el estudio eligieron la opción dos, aun cuando esta respuesta es contraria a las leyes de la probabilidad. En sus mentes, la opción dos era más representativa de Linda, por lo que usaron el principio de sustitución para responder a la pregunta.

  • Optimismo y aversión a la pérdida

  • Kahn creía que esta podría ser la tendencia que más nos caracteriza. El optimismo y la aversión a la pérdida nos crean una falsa ilusión de control porque tendemos solo a la posibilidad de los resultados conocidos que se han observado. A menudo no consideramos los resultados desconocidos ni los completamente imprevistos. Nuestro rechazo a esta complejidad explica porque usamos una pequeña muestra para dar por sentado resultados futuros.

  • Marcos

  • Los marcos se refieren al contexto en el que se presentan las opciones. Por ejemplo, más participantes en el estudio se inclinaron por la cirugía si se enmarcaba o contextualizaba en una tasa de supervivencia del 90 %, frente a un contexto del 10 % de tasa de mortalidad.

  • Coste perdido

  • Esta tendencia suele observarse en las investigaciones cuando las personas siguen invirtiendo en un activo de bajos resultados y escasas perspectivas en lugar de desviar la inversión a otro activo con unos pronósticos más favorables.

Con los Sistemas I y II, complementados con las tendencias y heurística, deberíamos obtener presentaciones de datos que se comunicaran correctamente a nuestro proceso de pensamiento de Sistema I. De esta forma, nuestro proceso de pensamiento de Sistema II podrá analizar los datos con mayor precisión. Nuestro Sistema I inconsciente puede procesar aproximadamente 11 millones de porciones de información/segundo, frente a nuestro sistema consciente, capaz de procesar solo 40 porciones de información/segundo.

También debemos fijarnos en cómo cada sistema utiliza nuestros sentidos para asimilar información. Según el libro The User Illusion de Tor Norretanders, el sentido de la vista procesa la mayor parte de la información en ambos sistemas:

visual processing bandwidth

Ya que nuestro sistema subconsciente procesa más información a través de la vista, la visualización de datos es una solución perfecta para comunicar patrones e información detallada a partir de los conjuntos de datos. Cuando alguien ve una visualización de datos, la vista y el cerebro necesitan menos de 500 milisegundos para procesar las llamadas propiedades visuales de una imagen. Según la publicación Information Visualization: Perception for Design de Colin Ware, hay cuatro propiedades visuales de procesamiento previo o preatencional:

  1. Color
  2. Forma
  3. Movimiento
  4. Posicionamiento espacial

Estos cuatro componentes conforman cada visualización de datos y deben considerarse detenidamente para la presentación.

Breve historia

Tipos de visualizaciones de datos comunes


Serie temporal

  • Gráficos de líneas
  • Están entre las visualizaciones más básicas y de uso habitual. Muestran un cambio en una o varias variables a lo largo del tiempo.

    line graph example

    Cuándo se usa: Tiene que mostrar cómo cambia una variable durante el tiempo.

  • Gráficos de área
  • Una variante de los gráficos de línea que muestran varios valores en una serie temporal.

    area chart example

    Cuándo se usa: Tiene que demostrar los cambios acumulativos en varias variables durante el tiempo.


Clasificación

  • Gráficos de barras
  • Estos gráficos son como los de líneas, pero usan barras para representar cada punto de datos.

    bar chart example

    Cuándo se usa: Los gráficos de área se recomiendan cuando tiene que comprar varias variables en un intervalo concreto o una variable en una serie temporal.

  • Pirámides de población
  • Las pirámides de población son gráficos de barras apiladas que ilustran la configuración social compleja de una población.

    population pyramid example

    Cuándo se usa: Tiene que demostrar la distribución de una población.


Parte del todo

  • Gráficos circulares
  • Muestran las partes de un todo en forma circular.

    pie chart example

    Cuándo se usa: Le interesa ver las partes de un todo con una relación porcentual. Sin embargo, muchos expertos recomiendan usar otros formatos porque con una mera inspección visual es más difícil interpretar los datos con este formato debido al mayor tiempo de procesamiento que se necesita. Son muchos los que argumentan que los gráficos de barras o de líneas son más útiles.

  • Mapas de árboles
  • Los mapas de árboles son un método para visualizar datos jerárquicos en formato anidado. El tamaño de los rectángulos es proporcional al valor porcentual respecto al todo de cada categoría.

    tree map example

    Cuándo se usa: Resultan más útiles para comparar partes de un todo y cuando se tienen numerosas categorías.


Desviación

  • Gráfico de barras (real y estimación)
  • Compara un valor estimado y el valor real de una variable concreta.

    bar chart expected vs unexpected  example

    Cuándo se usa: Tiene que comparar valores estimados y reales de una única variable. El ejemplo anterior muestra el número de artículos vendidos por categoría frente al número estimado. Puede ver fácilmente cómo los jerséis tuvieron menos ventas que las estimadas de entre todas las categorías, pero los vestidos y las bermudas tuvieron mejores resultados.

Correlación

  • Gráficos de dispersión
  • Los gráficos de dispersión muestran la correlación entre dos variables en la forma de un eje X y otro Y, y puntos que representan los puntos de datos.

    scatter plot example

    Cuándo se usa: Desea ver la correlación entre dos variables.


Distribución de frecuencia

  • Histogramas
  • Los histogramas reflejan el número de veces que se produce un evento dentro de un conjunto de datos específico y se presentan en formato de gráfico de barras.

    histogram example

    Cuándo se usa: Desea detectar la distribución de frecuencia de un conjunto de datos. Por ejemplo, le interesa ver la probabilidad relativa de vender 300 artículos en un día con un rendimiento histórico.

  • Diagramas de caja
  • Son visualizaciones no paramétricas que muestran una medida de dispersión. La caja representa el segundo y tercer cuartil (50 %) de los puntos de datos y la línea de la caja representa la mediana. Las dos líneas que se extienden fuera de la caja son los llamados “bigotes” y representan el primero y cuarto cuartil, junto con el valor mínimo y máximo.

    box plot example

    Cuándo se usa: Desea ver la distribución de uno o varios conjuntos de datos. Se usan en lugar de los histogramas cuando el espacio tiene que minimizarse.


Comparación nominal

  • Gráficos de burbujas
  • Los gráficos de burbujas son como los de dispersión, pero ofrecen más funciones, porque el tamaño o el color de cada burbuja representan más datos.

    bubble chart example

    Cuándo se usa: Cuando tiene tres variables para comparar.

  • Mapa de calor
  • Un mapa de calor es una representación gráfica de datos en los que un valor concreto se contiene en una matriz. Las sombras representan una cantidad definida por la leyenda.

    heatmap example

    Cuándo se usa: Son útiles si desea analizar una variable en una matriz de datos, como un intervalo de días y horas. Las distintas sombras le permiten distinguir rápidamente los extremos. El ejemplo anterior muestra a los usuarios de un sitio web por hora y momento del día durante una semana.


Comparación geográfica

  • Coroplético
  • Las visualizaciones coropléticas son una variante de los mapas de calor en las que se aplican sobras a un mapa geográfico.

    chloropleth example

    Cuándo se usa: Tienen que comprar un conjunto de datos por región geográfica.

Flujo

  • Diagrama Sankey
  • El diagrama Sankey es un tipo de diagrama de flujo en el que la anchura de las flechas se corresponde proporcionalmente con la cantidad del flujo.

    sankey diagram  example

    Cuándo se usa: Tiene que visualizar el flujo de una cantidad. El ejemplo anterior es un ejemplo famoso de un ejército de Napoleón al invadir Rusia durante un crudo invierno. El ejército empieza un avance en masa pero se va mermando conforme se adentra en Moscú hasta retirarse.


Relaciones

  • Diagrama de red
  • Muestran relaciones complejas entre las entidades. Ilustra cómo cada entidad se conecta con el resto para formar una red.

    network diagram  example

    Cuándo se usa: Tiene que comprar las relaciones dentro de una red. Son especialmente útiles para redes grandes. El ejemplo anterior muestra la red de rutas de vuelo de las aerolíneas del sudoeste.

Aplicaciones prácticas

La visualización de datos se usa en numerosas disciplinas y afecta a cómo vemos el mundo a diario. Es cada vez más importante para poder reaccionar y tomar decisiones rápidamente tanto en el sector público como en los negocios. Hemos compilado algunos ejemplos de aplicaciones comunes de la visualización de datos.

Ventas y marketing

Según el estudio de la agencia de medios Magna, la mitad de la inversión global en dólares para publicidad se dedicará a la plataforma online para 2020. Por tanto, los expertos en marketing tienen que saber cómo las propiedades de sus páginas web están creando ingresos juntos con sus fuentes de tráfico web. Las visualizaciones pueden servir para trazar fácilmente tendencias de tráfico a lo largo del tiempo resultado de las estrategias de marketing.

marketing data visualization

Finanzas

Los profesionales del sector financiero tienen que controlar el rendimiento de sus inversiones para tomar decisiones de compra o venta de un activo. Los gráficos de visualización de velas muestran cómo fluctúan los precios con el tiempo y el profesional puede usarlo para localizar tendencias. La parte superior de cada vela representa el precio más alto dentro de un período y la parte inferior representa el precio más bajo. En el ejemplo, las velas verdes muestran cuándo se produjo una subida de precios y las verdes cuando hubo una bajada. La visualización puede comunicar las fluctuaciones de los precios más fácilmente que una cuadrícula de puntos de datos.

candlestick chart

Política

La visualización más reconocida en política es un mapa geográfico que muestra el partido al que votó cada distrito o estado.

data visualization in politics

Logística

Las empresas de transporte usan el software de visualización para comprender las rutas de transporte globales.

logistics data visualiztion

Atención sanitaria

Los profesionales sanitarios usan las visualizaciones cloropéticas para ver datos importantes sobre la salud. El siguiente ejemplo muestra la tasa de mortalidad por cardiopatías por condado de los EE. UU.

heart disease mortality rate

Herramientas de visualización de datos

D3.js

D3.js se refiere a Data-Driven-Documents, o documentos orientados a datos, y es una biblioteca de JavaScript las visualizaciones dinámicas e interactivas de datos en un navegador web. Se creó en 2011 y se usa en muchos sitios web. Es una herramienta de visualización de datos muy útil para que los desarrolladores web puedan usar gráficos SVG y API para crear visualizaciones en la web.

Excel

Una de las herramientas de visualización de datos más usadas, Microsoft Excel se incluye en la mayoría de equipos ofimáticos y es un método estándar para visualizar los datos. A los usuarios les resulta muy fácil crear visualizaciones rápidas, pero no suele ser la herramienta de elección para la agregación de datos, la gobernanza ni los informes avanzados.

Microstrategy

MicroStrategy es líder en soluciones de análisis empresarial y ofrece datos personalizados y controlados a cada miembro de una organización. Puede procesar big data de forma rápida y automatizada y permite crear visualizaciones de datos personalizadas de forma instantánea.

Preguntas frecuentes

¿Por qué usamos la visualización de datos?
¿Cuáles son las ventajas de la visualización de datos?
¿Qué son el análisis y la visualización de datos?
¿Cuál es el objetivo de usar un panel de control para la visualización de datos?
¿Por qué es tan importante visualizar los datos?
¿Qué es la presentación de datos?