여러분은 아래 그림을 보신 적 있으신가요? 아래 그림은 사람의 에너지를 색깔로 나타낸 ‘AURA’라고 합니다. 이는 신비 체험을 주장하는 일부의 검증되지 않은 이론이지만, 에너지의 정도를 색상으로 나타내는 데이터 시각화 원칙이 충실히 적용되어 있어 오늘의 서론에서 가져와 봤습니다.
 
 
 
©wikipedia

데이터에 색상을 입히는 방법과 관련해서는 지난 리포트 ‘데이터 시각화, 그냥 예쁘게 칠해도 될까요?’에서 말씀드린 바 있는데요! 특히 이 특징은 오늘 이야기할 ‘히트맵’이라는 데이터 시각화 차트에서 두드러집니다.

 

언뜻 벽돌 벽 같기도…? 히트맵 차트

 

히트맵 차트 검색 화면



히트맵은 1991년 미국의 소프트웨어 디자이너 Cormac Kinney가 고안한 격자형 차트입니다. X축과 Y축을 범주형 변수로 하고, 균일한 블록으로 나누어 각 칸에 수치형 변수를 채우는 방식으로 제작합니다. 이때 수치나 빈도를 기준으로 색을 지정하는데요, 데이터값이 높거나 그 양이 많은 경우 진한 색을, 낮거나 적은 경우 연한 색을 사용하여 시각적 패턴이 자연히 만들어지게 합니다.

 

©히트맵 제작 예시

 

위는 간단하게 히트맵 차트를 만들어 본 예시입니다. 한국, 미국 등 7개의 나라에서 봄, 여름, 가을, 겨울 4계절 화재 위험이 얼마나 되는지를 히트맵으로 나타내 보았습니다. 이때 각 나라가 Y축, 계절이 X축이 되고 전체 칸수는 7*4=28개입니다. 위험도는 위험하지 않음, 적당한 위험, 매우 위험, 위험 감소의 4단계로 나타냈고 단계에 따라 다른 색상을 사용했습니다.

그에 따라 만들어진 히트맵을 보면, 한국의 겨울이 화재 위험이 매우 높다는 것을 볼 수 있습니다. 이처럼 히트맵은 구체적인 수치 없이도 많은 데이터가 시사하는 바를 패턴으로 나타내는 데 매우 효과적인 시각화 차트입니다.

그러면 다양한 예시를 통해 실제로 히트맵이 어떻게 쓰이는지 자세히 살펴보도록 하겠습니다.

 

‘히트맵’은 언제 쓰일까요? 히트맵 차트 예시

 

– 뉴스젤리 뉴스레터 ‘주룩주룩 내린 장맛비, 데이터로 헤아릴 수 있다면?’

 

기상 데이터는 히트맵으로 시각화하기에 최적화되어 있는 데이터 중의 하나입니다. 오랜 시간에 걸쳐 축적된 온·습도 등 수치형 변수를 한 화면에 나타낼 수 있고, 또 그 과정에서 ‘기후 패턴’을 찾아내는 데도 히트맵이 적절하게 쓰입니다. 관련하여 뉴스젤리도 뉴스레터 데이터 시각화의 모든 것 26호에서 올여름 장마와 관련한 데이터를 취합하여 히트맵 차트를 제작한 적이 있습니다.

 

©뉴스젤리 연도별 장마일 수 중 강수일수 비중

 

1973년부터 2020년까지의 기상 데이터를 시각적으로 분석해 여러 차트를 보여드렸는데, 그때 단연 많은 관심을 받았던 것이 위의 히트맵 시각화였습니다. 1973년 이후 강수 일수를 지역(Y축)별로 나누고, 그 정도를 색의 진하기로 표현했습니다.

이 차트에서 우리가 볼 수 있는 패턴은 무엇일까요? 우선 1999년이 유난히 전국적으로 색이 밝은 것으로 보아 이때는 ‘마른 장마’였음을 알 수 있습니다. 또 2011년 중부 지방을 지났던 기록적인 폭우의 흔적은 히트맵의 진한 세로 선으로 남아 있습니다. 이처럼 히트맵은 구체적인 수치 없이도 패턴을 통해 시각화의 중심 메시지를 한눈에 전한다는 매력이 있습니다.

 

– 도시별 시간에 따른 공기 질 by FancyGrid

 

©fancygrid.com

 

위는 Fancygrid가 도시별로 시간에 따른 대기 오염 정도를 가상의 데이터로 시각화해본 히트맵 차트입니다. 별도의 범례가 없더라도 색상 사용의 관습에 따라 붉은색이 나쁜 것을 의미하는 걸 금세 알아볼 수 있습니다.

서울과 홍콩의 공기가 가장 나쁘고, 미국 여러 도시와 시드니의 공기가 좋다는 걸 한눈에 확인할 수 있는데요. 이 시각화는 독특하게도 Y축 범례를 양쪽에 표시했습니다. 시각화가 가로로 길기 때문에, 이용자가 수치값을 쉽게 탐색할 수 있도록 시각적 보조 장치를 둔 것입니다.

 

– 체지방 데이터 시각화 차트 by anychart.com

 

©anychart.com

 

이 예시는 연령대별로 체형을 4가지(Lean, Ideal, Average, Above average)로 나눈 히트맵 차트입니다. 4가지의 각 체형은 진한 파랑, 연한 파랑, 주황, 진한 주황색으로 구분됩니다. 특히 위 차트는 우리가 보아 왔던 시각화와 일부 차이가 있다는 점에서 해석에 유의해야 합니다. 차트의 범주는 동일한 구간으로 나누는 것이 일반적이지만, 히트맵 차트에서는 필요에 따라 이 원칙을 벗어나기도 합니다.

위 차트에는 2가지의 범주가 있습니다. 우선 Y축은 연령대를 나타냅니다. 이 범주는 구간이 18-20, 21-25…51-55, 56&up으로 나누어져 있는데, 이는 시각화 작성자가 필요에 따라 간격을 다르게 한 것입니다. 또 두 번째 범주인 X축이 의미하는 각 색상(Lean, Ideal, Average, Above average) 역시 연령별로 기준이 다릅니다. 예를 들어 체지방률이 20%인 경우, 18-20세 사이에서는 Ideal한 체형이지만 36-40세라면 마른 편으로 구분이 되는 것이죠.

이처럼 히트맵 차트는 데이터에 따라 구간을 유연하게 조절하여 나타낼 수 있습니다. 다만 이 경우 설명과 범주 등을 보완하여 독자의 이해를 돕는 것이 바람직합니다.

 

정리하며

 

오늘은 히트맵 차트의 정의와 다양한 예시를 알아보았습니다. 데이터를 정리하는 데도 효과적이고 눈도 덩달아 즐거운 히트맵 차트는 가히 팔방미인이라 할 수 있는데요. 이런 히트맵 기법은 x, y 평면을 벗어난 다양한 곳에서 시각적 즐거움을 주고 있기도 합니다. 실제 지도 위에도 쓰이고, 실제 웹사이트에서 이용자의 경로나 클릭 빈도를 시각적으로 나타내는 등 다양한 시각적 분석에 널리 쓰입니다.

 

  • 참고자료

뉴스젤리 뉴스레터 ‘주룩주룩 내린 장맛비, 데이터로 헤아릴 수 있다면?’

Pollution in cities by hour of the day*: Nitrogen dioxide

Heat Map Charts – AnyChart

 

 

뉴스젤리와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.