Структура базы данных
Сведения, выгруженные из сервиса-источника, сохраняются в базу данных, которая создается отдельно для каждого проекта. Для каждого сервиса, из которого выгружаются данные, специально разрабатывается структура БД, которая призвана максимально облегчить работу конечного пользователя с данными. Все структуры проектируются на основе «звезды» или производной от нее «снежинки», подробней о которой можно почитать здесь:
Если вы используете для работы с данными Power BI, то рекомендуем посмотреть так же вот это видео:
Основная идея такой структуры сводится к тому, что есть два типа таблиц:
- таблицы измерений – в которых содержатся параметры, описывающие объект или событие;
- таблицы фактов – в которых содержатся показатели и ссылки на таблицы измерений.
В связи с тем, что в нашем примере мы работает с выгрузкой данных из Яндекс.Директ, то схема для него выглядит следующим образом:
Зеленым цветом на схеме выделены таблицы измерений, которые используются только данной выгрузкой, синим – общие таблицы измерений, используемые различными выгрузками, желтым – таблицы фактов и фиолетовым – вспомогательные таблицы.
Более детальное описание таблиц можно найти в документации, размещенной в сервисе в настройках источника, в которой описаны все таблицы, их поля и сведения, которые в них загружаются:
Сведения о данных, загруженных в базу находятся на странице “Хранилище”:
Для каждой таблицы отображается количество строк в таблице, её объем, а также информация о представлении. Обращаем внимание, что при изменении структуры таблиц (например, при добавлении сервисом функционала) представления в базе не корректируются: это связано с тем, что именно представления, как правило, используются в моделях данных. Дата изменения структуры представления отображается в колонке “Обновлено” (не следует путать с датой обновления данных). При необходимости представление можно пересоздать до актуальной структуры (“Выбрать” – “Пересоздать”).
Здесь же можно найти настройки для подключения к базе данных:
На триальном аккаунте вам будет доступно подключение под Пользователем, после оплаты работы добавится доступ Владельца. Кроме того, в сервисе предусмотрен функционал для обработки данных непосредственно в интерфейсе личного кабинета. Его вы можете найти также на закладке “Хранилище данных”, меню “Действия” – “Редактор SQL”.
Подключение к базе с помощью PopSQL
Для более серьезной работы с данными лучше воспользоваться специализированным ПО. Для примера, рассмотрим такой инструмент, как PopSQL. Это не означает, что вы так же должны пользоваться именно им, просто для демонстрационных целей он подходит довольно хорошо, так как позволяет подключаться к необходимой нам СУБД, выполнять SQL-запросы, строить на основе полученных данных графики и даже имеет функционал по совместной работе нескольких пользователей. В то же время, он очень простой и может быть установлен на любой операционной системе.
Для подключения к базе данных, в первую очередь, нам необходимо создать подключение, настройки которого можно найти на в разделе «Хранилище данных». Нам необходим сервер, база данных, имя пользователя и его пароль. В примере мы будем подключаться к Azure SQL Server. Возьмем пароль владельца для того, чтобы иметь доступ непосредственно к таблицам, но необходимо учитывать, что этот пользователь БД имеет полный доступ и при неумелом обращении можно случайно удалить или изменить данные.
После того, как подключение настроено, вы можете как просмотреть содержимое базы данных – все таблицы, представления, функции или процедуры – так и непосредственно выполнить запрос для получения необходимых данных, отвечающих заданному условию.
Возможно, вы не будете постоянно работать с данными при помощи SQL, но иметь общее представление о том, что такое база данных и каким образов в ней хранятся сведения необходимо. Это поможет избежать большого количества ошибок.
Кроме «стандартного» доступа к базе данных при помощи SQL можно использовать и наиболее распространенные и привычные для вас инструменты. Далее мы рассмотрим два варианта получения данных: при помощи Power Query в Excel и Power BI.
Подключение к базе с помощью Excel
В первую очередь, мы повторим запрос, который был написан ранее (о количестве показов), но уже не с помощью SQL, а при помощи Power Query в Excel. Для этого в закладке меню «Данные» нажимаем на «Создать запрос» и выбираем «Из Azure» -> «Из Базы данных SQL Azure».
Так же, как при настройке подключения в PopSQL, вводим данные для доступа к БД, взятые из раздела «Хранилище данных» в сервисе, и для авторизации указываем логин и пароль владельца. В загрузившемся списке таблиц находим «direct_ads_facts» и нажимаем на кнопку «Правка».
В связи с тем, что таблицы в базе данных имеют связи, мы сможем их использовать и при редактировании запроса. Находим связь с таблицей «general_dates» и выбираем в ней поле «simple_date».
Таким же образом находим таблицу «direct_campaigns» и выбираем в ней поле «name», после чего удаляем все поля кроме «impressions», «simple_date» и «name».
Добавляем фильтр по полю «simple_date» и указываем необходимую дату.
Далее, группируя по полям «simple_date» и «name», суммируем «impressions» и получаем следующий результат:
В результате мы получим те же данные, что и при выполнении запроса SQL, с единственной разницей в том, что сведения о запросе будут сохранены в Excel и в дальнейшем можно будет легко обновить данные, нажав на кнопку «Обновить все» в закладке «Данные» меню.
Более сложный пример — это использование моделей в надстройке для Excel, которая называется Power Pivot или в отдельном инструменте для визуализации Power BI. Учитывая, что Power Pivot есть не у всех, так как эта надстройка доступна не во всех изданиях Excel, мы рассмотрим пример работы с Power BI, так как он бесплатный.
Подключение к базе с помощью Power BI
После запуска Power BI нажимаем на кнопку «Получить данные» и в появившемся окне выбираем «Azure» -> «База данных SQL Azure» и нажимаем на кнопку «Подключить».
Далее настраиваем подключение, аналогично тому как мы это делали для в Excel, только в этот раз для авторизации используем логин и пароль пользователя, который имеет ограниченный доступ к БД. В появившемся окне с объектами базы данных выбираем два представления – «SHD Параметры дат» и «ЯД Статистика по объявлениям» – и нажимаем кнопку «Загрузить».
Как вы могли заметить, на этот раз в списке объектов БД значительно меньше элементов и все из них имеют понятные названия на русском. Это представления (views), которые созданы на основе реальных таблиц с данными. Они необходимы для того, чтобы скрыть системные поля и дать понятные названия. Более подробно о причине использования представлений можно прочитать по ссылке:
После того, как данные успешно загружены, нам необходимо убедиться, что связь между таблицами была создана Power BI верно.
Теперь мы можем построить график, аналогичный тому, который был выведен ранее в PopSQL.