После того как вы зарегистрировались в сервисе и создали проект, необходимо настроить регулярную выгрузку данных, в работе с которыми вы заинтересованы. Для этого подключается аккаунт сервиса-источника, в нашем случае это будет Яндекс.Директ, и указываются дополнительные параметры по мере их необходимости.

В разделе «Источники данных» необходимо нажать на кнопку «Добавить новый+»

и на плитке сервиса нажать на кнопку «Подключить».

После того как вы введете название источника данных, вы будете перенаправлены на страницу выбранного сервиса для предоставления доступа. На открывшейся странице необходимо согласиться с тем, что сервис myBI Connect получит доступ к вашему аккаунту, что необходимо для выгрузки данных. В зависимости от сервиса и подключаемого аккаунта возможно потребуется указать дополнительные сведения, после этого в списке настроенных источников данных появится новый, из которого можно будет выгрузить данные за необходимый прошедший интервал времени.

Продолжительность выгрузки данных зависит как от подключенного аккаунта, так и от периода, за который запущена выгрузка, и может варьироваться от нескольких минут до нескольких часов. Сразу выгружать сведения за длительный интервал нет необходимости, так как это может занять много времени и усложнить работу с данными. Поэтому для начала можно выгрузить данные допустим за месяц и ознакомиться с ними; в дальнейшем же всегда можно будет перезагрузить данные за необходимый интервал. Сведения о статусе загрузки данных вы можете увидеть непосредственно в списке настроенных источников, а детальные сведения о каждой загрузке в журнале, в котором приведены как интервал, за который загружались данные, так и время выполнения, и объем обработанных данных.

В связи с тем, что наш сервис предназначен для автоматического поддержания актуальности данных в хранилище, то данные в БД могут как добавляться, так и удаляться или обновляться.

Сведения, выгруженные из сервиса-источника, сохраняются в базу данных SQL Server, которая создается отдельно для каждого проекта. По умолчанию она имеет объем в 2Гб и стоит 399 рублей в месяц. Такого объема хватает для небольших и средних проектов, но даже если вдруг выделенного места будет недостаточно, то его можно увеличить до 250Гб за 999 рублей в месяц. Пользователю предоставляется полный доступ к БД, параметры которого можно посмотреть в разделе «Хранилище данных». Сервис автоматически создает двух пользователей: владельца базы данных с полными правами, и пользователя с правами только на чтение к представлениям, созданным на основе существующих таблиц.

Прежде чем обращаться к базе данных со своей рабочего компьютера, необходимо в сервисе указать IP-адрес, для которого необходимо открыть доступ.

Для каждого сервиса, из которого выгружаются данные, специально разрабатывается структура БД, которая призвана максимально облегчить работу конечного пользователя с данными. Все структуры проектируются на основе «звезды» или производной от нее «снежинки», подробней о которой можно почитать здесь:

Если вы используете для работы с данными Power BI, то рекомендуем посмотреть так же вот это видео:

Основная идея такой структуры сводится к тому, что есть два типа таблиц:

  • таблицы измерений — в которых содержатся параметры, описывающие объект или событие;
  • таблицы фактов — в которых содержатся показатели и ссылки на таблицы измерений.

В связи с тем, что в нашем примере мы работает с выгрузкой данных из Яндекс.Директ, то схема для него выглядит следующим образом:

Зеленным цветом на схеме выделены таблицы измерений, которые используются только данной выгрузкой, синим – общие таблицы измерений, используемые различными выгрузками, желтые – таблицы фактов и фиолетовым – вспомогательные таблицы.

Более детальное описание таблиц можно найти в документации размещенной в сервисе в разделе «Файлы для загрузки», в которой описаны все таблицы, их поля и сведения, которые в них загружаются.

После того как мы сделали все необходимые настройки и данные были успешно загружены в базу, мы можем подключиться к ней и посмотреть на них. Для начала мы воспользуемся таким инструментом как PopSQL. Это не означает, что вы так же должны пользоваться именно им, просто для демонстрационных целей он подходит довольно хорошо, так как позволяет подключаться к необходимой нам СУБД, выполнять SQL-запросы, строить на основе полученных данных графики и даже имеет функционал по совместной работе нескольких пользователей. В тоже время он очень простой и может быть установлен на любой операционной системе.

Для подключения к базе данных в первую очередь нам необходимо создать подключение, настройки которого можно найти на в разделе «Хранилище данных». Нам необходим сервер, база данных, имея пользователя и его пароль. В данном случае мы возьмем пароль владельца для того, чтобы иметь доступ непосредственно к таблицам, но необходимо учитывать, что это пользователь БД имеет полный доступ и при неумелом обращении можно случайно удалить или изменить данные.

После того как подключение настроено вы можете как просмотреть содержимое базы данных, все таблицы, представления, функции или процедуры, так и непосредственно выполнить запрос для получения необходимых данных, отвечающих заданному условию.

Возможно вы не будете постоянно работать с данными при помощи SQL, но иметь общее представление о том, что такое база данных и каким образов в ней хранятся сведения необходимо. Это поможет избежать большого количества ошибок.

Кроме «стандартного» доступа к базе данных при помощи SQL можно использовать и наиболее распространенные, и привычные для вас инструменты. Далее мы рассмотрим два варианта получения данных при помощи Power Query в Excel и Power BI.

В первую очередь мы повторим запрос, который был написан ранее, о количестве показов в декабре, но уже не с помощью SQL, а при помощи Power Query в Excel. Для этого в закладке меню «Данные» нажимаем на «Создать запрос» и выбираем «Из Azure» -> «Из Базы данных SQL Azure».

Так же как при настройке подключения в PopSQL вводим данные для доступа к БД, взятые из раздела «Хранилище данных» в сервисе, и для авторизации указываем логин и пароль владельца. В появившемся списке таблиц находим «direct_ads_facts» и нажимаем на кнопку «Правка».

В связи с тем, что таблицы в базе данных имеют связи, мы сможем их использовать и при редактировании запроса. Находим связь с таблицей «general_dates» и выбираем в ней поле «simple_date».

Таким же образом находим таблицу «direct_campaigns» и выбираем в ней поле «name», после чего удаляем все поля кроме «impressions», «simple_date» и «name».

Добавляем фильтр по полю «simple_date» и указываем, что дата должна быт больше или равна 1 января 2018 года.

Далее, группируя по полям «simple_date» и «name», суммируем «impressions» и получаем следующий результат.

В результате мы получим те же данные, что и при выполнении запроса SQL, с единственной разницей, что сведения о запросе будут сохранены в Excel и в дальнейшем можно будет легко обновить данные нажав на кнопку «Обновить все» в закладке «Данные» меню.

Более сложный пример — это использование моделей в надстройке для Excel, которая называется Power Pivot или в отдельном инструменте для визуализации Power BI. Учитывая, что Power Pivot есть не у всех, так как эта надстройка доступна не во всех изданиях Excel, мы рассмотрим пример работы с Power BI, так как он бесплатный.

После запуска Power BI кликаем по ссылке «Получить данные» и в появившемся окне выбираем «Azure» -> «База данных SQL Azure» и нажимаем на кнопку «Подключить».

Далее настраиваем подключение, аналогично тому как мы это делали для в Excel, только в этот раз для авторизации используем логин и пароль пользователя, который имеет ограниченный доступ к БД. В появившемся окне с объектами базы данных выбираем два преставления — «SHD Параметры дат» и «ЯД Статистика по объявлениям» — и нажимаем кнопку «Загрузить».

Как вы могли заметить, на этот раз в списке объектов БД значительно меньше элементов и все из них имеют понятные названия на русском. Это представления (views), которые созданы на основе реальных таблиц с данными. Они необходимы для того, чтобы скрыть системные поля и дать понятные названия. Более подробно о причине использования представлений можно прочитать по ссылке:

После того, как данные успешно загружены, нам необходимо убедиться, что связь между таблицами была создана Power BI верно.

Теперь мы можем построить график, аналогичный тому, который был выведен ранее в PopSQL.

Для удобства пользователей сервиса в нем есть файлы шаблонов Power BI, содержащие базовые модели, собранные на основе таблиц, используемых конкретным сервисом.

Если скачать этот файл, открыть его в Power BI и ввести все те же данные для подключения к БД, используя для авторизации пользователя с ограниченным доступом, то вы получите готовую модель, которую можно использовать как основу для вашего дальнейшего отчета.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *