7 принципов хорошей визуализации
Что нужно, чтобы визуализировать данные
-
Исследовать вашу аудиторию.
-
Выкинуть лишнее, сконцентрироваться на главном.
-
Выбрать подходящий тип диаграммы.
-
Сориентировать зрителя.
-
Использовать одни и те же цвета.
-
Минимизировать шум.
-
Не усложнять себе и другим жизнь.
А теперь обо всем по порядку.
Как исследовать аудиторию
Перед тем как что-то визуализировать, задайтесь вопросом: для кого вы это делаете?
Представим себе джуна Диму, которого взяли на стажировку аналитиком. Чтобы попасть в штат, ему нужно проанализировать и визуализировать данные для инвесторов салона красоты. Если он покажет, что выручка бизнеса растет, его возьмут в штат, а если расскажет о тратах на закупку новых материалов — нет. Почему?
Потому что в первом случае он понял задачу и определил целевую аудиторию — инвесторов. Им не интересно, что там с закупкой мусса для волос или гель-лака. Им интересно, прибыльно ли вкладывать в бизнес. Если Дима пойдет по второму пути и отчитается по закупкам, значит, он не понял задачу и собирается делать отчет для владельцев бизнеса.
Еще лучше, если Дима узнает, нужно привлечь новых инвесторов или удержать старых. От этого тоже может зависеть набор данных, которые необходимы для отчета.
Визуализация должна быть полезна тем, кто будет на нее смотреть. Поэтому чем у́же вы определите целевую аудиторию, тем лучше.
Показывайте только самые важные данные
Аналитикам все время приходится бороться с искушением продемонстрировать заказчику всю подкапотную работу. Вспомним Диму. Его взяли в штат и только что доверили первую важную задачку. Он построил 34 диаграммы и 18 графиков и наконец понял, почему его заказчик теряет деньги на своем бизнесе. Дима открывает PowerPoint и радостно вываливает все 52 картинки на слайды, чтобы показать, какой он молодец.
Не надо как Дима. Задайтесь вопросом: вы хотите показать, что вы молодец и построили 100 тысяч графиков, или принести пользу?
Выберите только те диаграммы, которые отражают суть инсайта или идеи.
В аналитике разделяют исследовательский и объясняющий анализ данных.
- Исследовательский анализ — это когда вы пытаетесь понять, о чем они говорят. Вы тестируете гипотезу за гипотезой, чтобы найти что-то ценное. Такой анализ помогает понять, например, насколько эффективен бизнес.
- Объясняющий анализ — это когда вы рассказываете об инсайтах, которые нашли в ходе исследования. Это именно то ценное, что нужно донести до зрителя сред кучи графиков и диаграмм. Проще говоря, показать в картинках ваши идеи.
Итак, исследовательская визуализация — это вся подкапотная работа, стройте хоть миллион графиков. Можно представить ее как поиск золотых самородков в речном песке. Вы просеиваете, просеиваете — и находите блестящий камушек. Этот самородок и есть объясняющая визуализация — то ценное, что нужно показать миру.
Подберите диаграмму под ваш тип данных
У каждого вида визуализации своя функция. Линейные диаграммы показывают зависимости, круговые — соотношения. Задача аналитика — понятно донести информацию. Если вы используете стандартный график неожиданным образом, вы как минимум озадачиваете клиента. Как максимум — теряете его.
Чаще всего достаточно базовых диаграмм и графиков. Они понятны и привычны. Если человеку предложить сделать выводы о бизнесе на основе объемной поверхностной диаграммы и линейной диаграммы, скорее всего он быстрее разберется во второй.
Наш герой Дима, как и множество начинающий аналитиков, очень хотел бы использовать красивые и сложные диаграммы. Однажды он потратил 17 часов на то, чтобы построить спиральную диаграмму. А мог бы построить пару стандартных столбчатых. Итог: потраченное время и озадаченный отчетом заказчик.
У каждого типа визуализации своя функция, у базовых диаграмм она очевидна. Выбирайте стандартные варианты.
Сделайте легенду графика
Любая диаграмма — это карта, на которой нужно найти клад, то есть основную идею. На карте без легенды не сориентироваться. Подписи тоже зачастую нужны, но здесь стоит отталкиваться от типа диаграммы и масштаба.
Сохраняйте цветовые обозначения
Если вы используете цвета для определенных категорий, они должны сохранятся во всех графиках. Если вы начали использовать синий цвет для данных за 2021 год, придерживайтесь этого обозначения.
Случай из стажировки Димы. Он сделал отчет за несколько лет по целевой аудитории клиента — онлайн-магазина стройматериалов.
Начальник Димы был очень озадачен: почему в 2023 году соотношение мужчин и женщин в целевой аудитории вдруг кардинально изменилось? До тестирования гипотез дело не дошло, вовремя поняли, в чем проблема.
Минимизируйте шум
Помните время, когда все только начинали пользоваться PowerPoint? Красный шрифт на зеленом фоне, объемные надписи? Дима точно помнит. Поэтому он использует лаконичное оформление и минимум цветов и следит за тем, чтобы надписи были читаемыми.
Шум не должен отвлекать внимания от основного — истории, которую рассказывают данные.
Не усложняйте
Если у вас есть числа, это еще не значит, что вам нужен график. Иногда написать, что продажи упали на 30%, — гораздо лучшее решение, чем рисовать диаграмму. В данном случае важно то, что бизнес теряет деньги. Привлеките к этому внимание одной цифрой.
Как выбрать тип визуализации
Руслан полгода назад открыл кофейню. Это место для любителей кофе и книг. Вы можете купить кофе как обычно, а можете забрать напиток бесплатно. Работает это так: на сайте кофейни люди предлагают книги и выставляют за них цену в чашках кофе. Человек выбирает книгу, оплачивает кофе владельцу книги и забирает свой томик «Преступления и наказания» или уголовный кодекс в подарочном издании.
Кофейня открыта уже год и дела вроде идут хорошо. Руслан открыл еще 2 аналогичные кофейни. Но как хороший предприниматель, он хочет знать, что все хорошо, не по ощущениям, а на основе данных. Поэтому для анализа бизнеса Руслан нанимает аналитика Варю.
Помните, мы говорили о том, что исследовательский анализ — это мытье песка в поисках самородков? Так вот давайте предположим, что Варя перебирает все возможные визуализации, чтобы найти важные инсайты о бизнесе Руслана.
Сразу оговоримся: пример ниже не учит вас серьезной аналитике данных или выбору метрик. Мы выдумали пример, чтобы было проще понять разницу в типах визуализации.
Линейная диаграмма, или line plot, показывает зависимость между переменными. Это классический вариант графика «X зависит от Y». Например, зависимость продаж кофе от времени суток.
Гистограмма, или histplot, демонстрирует распределение одного набора данных. На ней, как и на линейной диаграмме, хорошо видны зависимости.
Столбчатая диаграмма, или bar plot, помогает сравнить сразу несколько категорий. Внешне она очень похожа на гистограмму.
Варя исследовала данные и обнаружила, что самые прибыльное время — с мая по август. Чтобы показать это Руслану, она построила гистограмму. В ней 1 зависимость: выручки от месяца.
Допустим, далее Варя хочет понять: сколько денег приносит каждый вид кофе при обычной продаже и продаже за книги. То есть она будет сравнивать 2 параметра: вид кофе и вид продажи. Для этого Варе понадобится столбчатая диаграмма.
Круговая диаграмма, или pie chart — показывает части целого. Особенно удачно они работают с процентными данными. Они воспринимаются интуитивно, так как обычно круг ассоциируется со 100%.
С помощью них легко показать, на продаже каких напитков кофейня делает основную часть выручки. Или какие жанры литературы предпочитают посетители — все, что угодно.
Кольцевая диаграмма, или donut plot — по сути вариант круговой. Она может быть с 1 или несколькими слоями.
Диаграммы рассеяния хорошо выявляют взаимосвязи между количественными данными. С их помощью Варя показала Руслану, что давние клиенты чаще покупают книги за кофе, чем новые.
Иногда есть искушение показать таблицу вместо графика. Таблицы — не самая удачная форма визуализации. Они всегда требуют от зрителя анализа информации, а чаще всего от вас хотят уже готового вывода. Однако таблицы могут полезнее диаграмм, если вы демонстрируете сразу много параметров в печатной форме отчета.
В любом случае, если уж вы выбрали таблицу, присмотритесь к тепловым картам. Возможно, этот тип визуализации увеличит доступность данных и упростит анализ.
Существует множество способов представить данные. Можете на досуге заглянуть в любой из пакетов Python, которые используют для визуализации. Но помните про 3 принцип — скорее всего вам хватит основных типов диаграмм. Не усложняйте.
Вопросы и ответы
Зачем руководителю разбираться в работе с данными, если для этого есть сотрудники и их отчеты?
Как можно классифицировать данные?
Под классификацией данных понимают обычно использование различных типов. К примеру, многие аналитики используют типовое разделение: числа, слова, даты, характеристики, их значения. Однако, не всегда удобно применять именно эту схему.
Нередко аналитики самостоятельно изобретают ту или иную классификацию для удобства. Если использовать базы данных, то во многих из них информация самостоятельно укомплектовывается, но этот процесс всегда можно скорректировать.
Классификация объектов может зависеть от вида предприятия, а также его нужд. Хороший аналитик создает не слишком большие, но специфичные категории. Используя их, можно быстро получить доступ к значениям класса, а также составить результативный отчет о проделанной аналитической работе.