Аналитика в Power BI с помощью R и Python — «…Почтовая лошадь просвещения…»

Опубликовано по ссылке:

Microsoft Power BI является одним из наиболее популярных инструментов в области бизнес-аналитики. За последние годы этот программный комплекс опередил своих прямых конкурентов QlikView и Tableau и прочно занял лидирующее положение на рынке. Одним из главных преимуществ Power BI является то, что он представляет собой нечто гораздо большее, чем просто инструмент визуализации данных. Вот лишь несколько явных преимуществ Power BI:
встроенный язык запросов DAX, позволяющий крайне эффективно извлекать информацию из модели данных с применением сложной бизнес-логики;
интегрированный инструмент подготовки и преобразования данных Power Query, при помощи которого можно легко извлекать и трансформировать исходную информацию в вид, пригодный для анализа;
движок Vertipaq, позволяющий хранить данные в оптимальном для формирования отчетов виде и быстро и эффективно обрабатывающий сложные вычисления;
заранее подготовленные пакеты интерактивных элементов визуализации, помогающие представлять данные в понятной и четкой форме.
Глядя на этот список преимуществ, вы вполне можете задаться вопросом, зачем же столь мощному инструменту понадобилась помощь языков программирования R и Python. Ответ прост – чтобы заполнить области, в которых встроенные средства недостаточно хороши. Вот лишь несколько примеров применения этих языков программирования в рамках Power BI:
создание пользовательских элементов визуализации без особых усилий;
реализация интеллектуальной обработки данных, методов машинного обучения и искусственного интеллекта без необходимости приобретать дорогостоящую подписку на Power BI Premium;
использование продвинутых методов обработки текстовой информации с использованием техник, недоступных в Power Query и DAX;
взаимодействие со службами Microsoft Cognitive Services без необходимости приобретать подписку на Power BI Premium;
взаимодействие со сторонними интерфейсами API с целью эффективного обогащения моделей данных Power BI;
и многое другое…
В данной книге мы подробно расскажем о том, как использовать на практике языки программирования R и Python для обеспечения всей перечисленной выше функциональности в Power BI. Язык R идеально подходит для Power BI по причине того, что он был создан специально для анализа данных. Уже долгие годы аналитики активно используют R для преобразования и визуализации информации. Так что то немногое, на что не способна программная среда Power BI, может быть с лихвой компенсировано при помощи языка R.
Что касается Python, то этот язык программирования приобрел чрезвычайную популярность в области анализа данных в последнее десятилетие. Одним из главных преимуществ Python является то, что он подходит для решения не только аналитических задач, но и общих задач программирования. К примеру, взаимодействие с интерфейсами API довольно легко осуществить при помощи Python, тогда как посредством Power Query это будет сделать не так-то просто.
Все эти особенности делают языки R и Python идеально подходящими для такого мощного аналитического инструмента, как Power BI. И в книге, которую вы держите в руках, мы проиллюстрируем на примерах все перечисленные выше возможности и техники. При этом все решения и сценарии будут сопровождаться подробными описаниями, чтобы вы досконально поняли используемую реализацию.
Но перед тем как приступать к конкретным примерам, необходимо для начала настроить среду выполнения. Давайте пройдемся по соответствующим пунктам и подготовимся к работе.
Настройка вашего окружения Azure
В данной книге мы будем часто упоминать и пользоваться различными составляющими облачной платформы Microsoft Azure. В частности для внедрения механизмов искусственного интеллекта в модели данных Power BI мы будем использовать набор служб Microsoft Cognitive Services. Также для работы с примерами из данной книги рекомендуется настроить виртуальную машину для анализа данных (Data Science Virtual Machine – DSVM). Это не обязательное условие, но желательное. Кроме того, для комфортной работы с тем, что мы будем обсуждать, вам необходимо настроить окружение со следующими инструментами:
SQL Server 2017 или выше;
SQL Server Machine Learning Services 2017 или выше с поддержкой R и Python;
дистрибутив Python из Anaconda;
R;
R Studio;
VS Code;
Power BI Desktop.
Сконфигурировать такое окружение вручную – задача не из легких, но если вы установите виртуальную машину для анализа данных, большинство настроек будет выполнено за вас автоматически. В следующих разделах мы поговорим о том, как настроить Azure, чтобы можно было пользоваться службами Microsoft Cognitive Services. Кроме того, вы узнаете, как развернуть DSVM.
Подписка на Azure
Оформить подписку на Azure можно по адресу https://azure.microsoft.com/en-us/free. В результате вы получите 12 месяцев на пользование выборочными службами плюс кредит на сумму $200 на первый месяц.
Подписка на Microsoft Cognitive Services
Мы будем использовать службу Microsoft Cognitive Services для проведения анализа тональности текста (sentiment analysis) в Power BI с помощью Python. Для начала вам необходимо будет настроить службу Microsoft Cognitive Services в Azure, после чего можно будет обращаться к ней из Power BI. Для настройки службы необходимо выполнить следующие шаги.
Войдите на портал Azure.
Введите в строке поиска Cognitive Services и нажмите Enter.
Вы должны оказаться на странице Cognitive Services. Нажмите кнопку создания для запуска процесса регистрации.
Введите следующую информацию:
имя;
подписка;
расположение;
ценовая категория;
группа ресурсов.
Установите флажок, оповещающий о том, что вы прочитали и согласны с условиями.
Нажмите кнопку создания.
Учтите, что использование службы Microsoft Cognitive Services является платным. Чтобы получить информацию о ценах, перейдите к ресурсу Microsoft Cognitive Services, введите в окно поиска текст Ценовая категория и откройте результаты поиска. Выберите подходящую вам категорию. Вы будете перенаправлены на страницу с информацией о ценах согласно выбранному вами региону. На примеры, показанные в данной книге, вам с лихвой хватит выданного вам на первый месяц кредита.
Создание виртуальной машины для анализа данных (DSVM)
Предпочтительным вариантом будет создание виртуальной машины и добавление ресурсов, не установленных в ней по умолчанию. Я рекомендую идти этим путем, поскольку полностью ручная настройка окружения для выполнения примеров из этой книги может занять уйму времени. Использование виртуальной машины позволит сконфигурировать необходимое окружение за несколько минут – при том что в ручном режиме у вас бы это могло отнять много дней проб и ошибок. Если вы решите пойти длинным путем, позже я опишу примерный план действий. Сейчас же приведу инструкции по настройке виртуальной машины.
Шаги создания виртуальной машины в Azure
Перейдите на портал https://portal.azure.com. Если система попросит, введите данные учетной записи, созданной ранее.
Нажмите на кнопку Создать ресурс (Create a resource) в левом верхнем углу.
В строке поиска введите Data Science Virtual Machine — Windows 2019.
Нажмите на кнопку Создать (Create). Появится форма для ввода информации о конфигурации виртуальном машины, в которой будет открыта вкладка Основные (Basics). В следующих шагах вы узнаете, как заполнить эту форму.
Подписка (Subscription): выберите подписку, которую собираетесь использовать. По умолчанию будет выбрана подписка, настроенная ранее.
Группа ресурсов (Resource group): если у вас уже есть группа ресурсов, которую вы желаете использовать, выберите ее. В противном случае создайте новую для своей виртуальной машины.
Имя виртуальной машины (Virtual machine name): название, которое вы хотите присвоить виртуальной машине.
Регион (Region): Ближайший к вам географический регион Azure.
Image: убедитесь, что в данном списке выбран пункт Data Science Virtual Machine – Windows 2016.
Размер (Size): я использую B4ms, поскольку это самый дешевый вариант для 16Гб оперативной памяти. Этот параметр очень важен для R, Python и Power BI.
Имя пользователя (Username): придумайте имя пользователя.
Пароль (Password): введите пароль.
Подтвердите пароль (Confirm password): введите пароль еще раз.
Перейдите на вкладку Диски (Disks).
Тип диска ОС (OS disk type): укажите Стандартный SSD (Standard SSD) – это будет оптимальный для нашего случая.
Перейдите на вкладку Сетевые подключения (Networking).
Убедитесь, что все нужные поля заполнены. Обязательные к заполнению поля помечены звездочкой. В эти поля должны быть введены значения по умолчанию. Если таких значений нет, нажмите на ссылку Создать (Create new) под соответствующим полем и введите недостающий элемент.
Перейдите на вкладку Управление (Management).
Оставьте все по умолчанию и перейдите на вкладку Дополнительно (Advanced).
Примите значения по умолчанию и перейдите на вкладку Теги (Tags).
Откройте вкладку Просмотр и создание (Review + create).
Вы увидите сводную информацию о создаваемой виртуальной машине. Кроме того, для вас будет рассчитана стоимость ее использования. Если вы согласны с введенными данными, нажмите кнопку Создать (Create).
Не забывайте останавливать виртуальную машину после каждого использования, чтобы не платить лишние деньги. На всякий случай вы можете настроить автоматическое отключение машины в определенное время. Для этого необходимо сделать следующее.
Перейдите к своей виртуальной машине на портале Azure.
Введите текст Автозавершение работы (auto-shutdown) в строку поиска и перейдите в соответствующий раздел.
Переведите переключатель Включено (Enabled) в положение Вкл (On).
Выберите время, в которое машина будет выключаться, в поле Запланированное завершение работы (Scheduled shutdown).
В выпадающем списке Часовой пояс (Time zone) выберите нужную зону.
Если хотите, чтобы система отправляла вам уведомление о выключении виртуальной машины, установите переключатель в разделе Отправлять уведомление перед автоматическим завершением работы (Send notification before auto-shutdown) в положение Да (Yes). Уведомление будет отправлено на адрес, введенный в поле Адрес электронной почты (Email address).
Настройка R на виртуальной машине
Мы будем использовать другой дистрибутив языка R по сравнению с установленным. Нашим выбором будет дистрибутив Microsoft R Open (MRO). Он полностью совместим с дистрибутивом, распространяемым через центральную систему хранения пакетов CRAN, но при этом существенно улучшен в отношении определенных типов вычислений, а также снабжен дополнительными полезными инструментами. Выполните следующие шаги, чтобы загрузить дистрибутив MRO в виртуальную машину.
Узнайте версию R, используемую в Power BI. Соответствующую информацию можно найти на сайте Microsoft по адресу https://docs.microsoft.com/en-us/power-bi/visuals/service-r-visuals.
Откройте браузер в виртуальной машине и перейдите по следующей ссылке: https://mran.microsoft.com/open. В виртуальной машине по умолчанию установлены два браузера: Microsoft Edge и Firefox.
Нажмите на кнопку Download справа и вы будете перенаправлены на страницу загрузок. Здесь щелкните по ссылке Past Releases справа, которая откроет страницу со всеми предыдущими версиями Microsoft R Open. Выберите версию, которую использует Power BI.
Нажмите на кнопку Download напротив версии для Windows.
Выполните установку загруженного дистрибутива.
Откройте R Studio на виртуальной машине.
Откройте меню Tools => Global Options и убедитесь, что выбрана версия MRO, которую вы только что установили. Если это не так, нажмите на кнопку Change… и выберите нужный дистрибутив из списка, после чего нажмите на кнопку OK.
Настройка Python на виртуальной машине
Одним из преимуществ использования виртуальной машины является то, что вы получаете предустановленный дистрибутив Python, идеально подходящий для анализа данных. Этот дистрибутив называется Anaconda. Он поставляется с более чем 1500 библиотек, популярных в среде анализа данных. Также вместе с ним идет диспетчер пакетов (package manager) и система управления окружением (environment management system) под названием conda. Инсталлировать пакеты предпочтительно именно посредством conda по причине установки правильных зависимостей между ними. Система управления окружением conda значительно облегчает задачу создания изолированной копии Python с предустановленными библиотеками нужных версий.
Давайте для примеров из этой книги создадим отдельное окружение Python с именем pbi. Для этого необходимо выполнить следующие действия.
Подключитесь к виртуальной машине.
Откройте командную строку, нажав на значок поиска рядом с иконкой Windows и введя команду cmd.
Введите следующую команду для создания окружения conda с именем pbi на базе Python 3.7:

conda create -n pbi python=3.7

Решение использовать Python версии 3.7 основывается на информации, полученной из инструкции от Microsoft по адресу https://docs.microsoft.com/en-us/business-applications-release-notes/october18/intelligence-platform/power-bi-service/pervasive-artificial-intelligence-bi/python-service. Согласно документации, службы Power BI совместимы с Python 3.x, так что текущая версия 3.x должна подойти.
Теперь у нас есть окружение Python, которое мы можем использовать для примеров из данной книги.
Настройка SQL Server Machine Learning Services на виртуальной машине
В нескольких примерах из этой книги вам потребуется наличие служб машинного обучения SQL Server (SQL Server Machine Learning Services – SSMLS). SSMLS предоставляет вам инструменты, позволяющие проводить углубленную аналитику в базах данных с использованием R и Python, а также средства, облегчающие работу с большими данными. Также в составе SSMLS есть несколько предварительно обученных моделей от Microsoft, которыми вы можете пользоваться в процессе учебы и работы. В виртуальной машине по умолчанию запущены службы SSMLS. Если вы не используете виртуальную машину, вам необходимо будет вручную запустить эти службы, воспользовавшись подробной инструкцией по адресу https://docs.microsoft.com/en-us/sql/machine-learning/install/sql-machine-learning-services-windows-install?view=sql-server-ver15. Предварительно обученные модели, которые мы будем использовать в этой книге, могут быть добавлены в ваш экземпляр SQL Server поверх базовой установки. Перейдите по следующей ссылке и следуйте инструкциям: https://docs.microsoft.com/en-us/sql/machine-learning/install/sql-pretrained-models-install?view=sql-server-ver15.
Установка пакетов R
Некоторые скрипты на языке R из этой книге могут ссылаться на пакеты, которые у вас изначально могут быть не установлены. Исправить это очень просто. Следующая инструкция в консоли R позволит установить популярный пакет с названием data.table:

install.packages(«data.table»)

Бывает, что вам требуется установить сразу несколько пакетов за раз. Например, вы хотите одновременно инсталлировать пакеты data.table и dplyr. Для этого достаточно объединить названия этих пакетов в вектор и присвоить результат переменной pkgs. После этого можно передать эту переменную на вход функции install.packages(), как показано ниже:

pkgs <- c("data.table", "dplyr") install.packages(pkgs) Примечание. Символьный вектор представляет собой тип данных в языке R для хранения текстовой информации в виде одномерного массива. Вы узнаете больше об этом и других типах данных в R в процессе чтения книги. При создании визуальных элементов в Power BI при помощи R вам необходимо знать, какую версию пакета использует служба Power BI. Вы можете получить список всех доступных пакетов R в Power BI вместе с их версиями по ссылке https://docs.microsoft.com/en-us/power-bi/service-r-packages-support. При помощи функции install.packages() можно установить последнюю версию пакета из репозитория, который вы используете, если у вас дистрибутив R из CRAN. При использовании дистрибутива Microsoft R Open будет установлена последняя версия пакета, основываясь на дате снимка (snapshot date). В обоих случаях может получиться так, что будет установлен пакет не той версии, с которой работает служба. Чтобы устранить это неудобство, необходимо сначала узнать требуемую версию пакета по ссылке выше, после чего загрузить ее при помощи пакета devtools. Ниже приведен пример использования пакета devtools для установки пакета ggplot2 версии 0.9.1 из CRAN: library(devtools) install_version( "ggplot2", version = "0.9.1", repos = "http://cran.us.r-project.org") Установка библиотек Python Установить библиотеки Python можно разными способами. В данной книге мы будем использовать два метода: при помощи conda и при помощи pip. Стоит отметить, что установка библиотек в Python выполняется не так просто, как в R. В книге мы будем в основном использовать командную строку conda для установки библиотек Python. Для этого необходимо выполнить следующие действия. Откройте строку поиска, иконка которой расположена рядом со значком Windows. Введите слово Anaconda, после чего в окне выбора появится вариант Anaconda Prompt. Щелкните по нему. Активируйте окружение, которое используете для Power BI, введя следующую команду в командную строку: conda activate "»

Рекомендуется использовать окружение для разработки на Python, ассоциированное с этой книгой.
Установите пакет при помощи conda, используя следующий шаблон:

conda install <"package name">

Например, если вы устанавливаете пакет pandas, команда должна иметь следующий вид:

conda install pandas

Если вам необходимо установить пакет pandas версии 1.0.4, используйте следующую команду:

conda install pandas=1.0.4

Не все пакеты доступны для установки при помощи conda. Обратитесь к следующей ссылке для получения списка пакетов, которые могут быть установлены с использованием conda в Python 3.6: https://docs.anaconda.com/anaconda/packages/py3.6_win-64. Один из пакетов, который мы будем использовать в этой книге, недоступен в conda, но может быть установлен при помощи PyPI. Имя этого пакета CensusData. Вам необходимо использовать систему управления пакетами pip для установки библиотеки CensusData, как показано ниже:

pip install CensusData

Настройка Power BI на виртуальной машине
В Power BI Desktop необходимо выполнить ряд изменений в настройках, чтобы можно было работать с R и Python. Подробно эти изменения описаны в репозитории кода книги на GitHub. Здесь вы также найдете инструкции по созданию и использованию окружения conda в Python. Ссылка на репозиторий кода: https://github.com/Apress/adv-analytics-in-power-bi-w-r-and-python.
Альтернативная настройка
Использование виртуальной машины – предпочтительная, но вовсе не обязательная опция для работы с примерами из этой книги. Если вы хотите пойти другим путем, вам придется устанавливать все программное обеспечение вручную. Приводим ссылки на все необходимые установки:
Power BI: http://www.microsoft.com/en-us/download/details.aspx?id=58494;
R Studio: https://rstudio.com/products/rstudio/download;
Microsoft R Open: https://mran.microsoft.com/download;
Anaconda: http://www.anaconda.com/products/individual;
VS Code: https://code.visualstudio.com/download;
SQL Server 2019 Developer: http://www.microsoft.com/en-us/sql-server/sql-server-downloads;
SQL Server Machine Learning Services: https://docs.microsoft.com/en-us/sql/machine-learning/install/sql-machine-learning-services-windows-install?view=sql-server-ver15.
Если вы остановите выбор на этом варианте, я очень рекомендую использовать виртуальную машину на базе Windows Server 2016 или выше. Предлагаю ссылку YouTube на пошаговую инструкцию по установке Windows Server 2019 на VirtualBox: http://www.youtube.com/watch?v=ZjQSuyuN0nA&t=8s.
Загрузка пакетов R в SSMLS
В главе 10 вы научитесь работать с моделями машинного обучения посредством служб SQL Server Machine Learning Services 2019 с использованием языка R. И для этого вам понадобится, чтобы необходимые пакеты были загружены в SSMLS 2019. Ниже представлен скрипт на языке T-SQL, который вы можете использовать для вывода информации о том, какие пакеты в данный момент загружены в ваш экземпляр SSMLS 2019:

EXECUTE sp_execute_external_script
@language=N’R’,
@script = N’
packagematrix <- installed.packages(); Name <- packagematrix[,1]; Version <- packagematrix[,3]; OutputDataSet <- data.frame(Name, Version);' WITH RESULT SETS ((PackageName nvarchar(250), PackageVersion nvarchar(max) )) Если пакета, который вам нужен, нет в списке, вам необходимо будет загрузить его вручную. Для этого нужно выполнить следующую пошаговую инструкцию. Шаг 1. Загрузите пакет sqlmlutils в папку Documents Пакет sqlmlutils можно зарузить по адресу https://github.com/Microsoft/sqlmlutils/tree/master/R/dist. Скачайте файл zip с репозитория GitHub и сохраните в папке Documents. Шаг 2. Запустите следующий код из командной строки Откройте командную строку под администратором и запустите следующий код на выполнение: R -e "install.packages('RODBCext', repos='https://cran.microsoft.com')" R CMD INSTALL %UserProfile%\Documents\sqlmlutils_0.7.1.zip Этот код сработает, если вы предварительно положили архив sqlmlutils в папку Documents под вашим профилем. Если файл располагается в другом месте, вам необходимо откорректировать путь. Шаг 3. Загрузите необходимые пакеты После выполнения второго шага инструкции вы будете готовы к загрузке пакетов в SSMLS 2019 из скрипта R в R Studio. Ниже приведем фрагмент кода для загрузки пакета dplyr в SSMLS 2019: library(sqlmlutils) connection <- connectionInfo( server = "server", database = "database", uid = "username", pwd = "password") sql_install.packages(connectionString = connection, pkgs = "dplyr", verbose = TRUE, scope = "PUBLIC") Вы можете загружать несколько пакетов одновременно. Скажем, вам необходимо загрузить пакеты dplyr и data.table. Это можно сделать путем создания символьного вектора, содержащего оба пакета, и передачи его параметру pkgs, как показано ниже: library(sqlmlutils) connection <- connectionInfo( server = "«,
database = ««,
uid = ««,
pwd = ««)

pkgList <- c("dplyr","data.table") sql_install.packages(connectionString = connection, pkgs = pkgList, verbose = TRUE, scope = "PUBLIC") Загрузка необходимых библиотек Python в SSMLS Как и в случае в загрузкой пакетов R в SQL Server Machine Learning Services 2019, вы должны знать, как установить необходимые пакеты Python при помощи sqlmlutils для чтения заключительных глав этой книги. Для этого вам нужно выполнить следующие шаги. Шаг 1. Скачайте пакет sqlmlutils на свой компьютер в папку Documents Загрузить пакет sqlmlutils можно по ссылке https://github.com/Microsoft/sqlmlutils/tree/master/Python/dist. Скачайте архив zip и сохраните его в папке Documents. Шаг 2. Откройте командную строку и введите следующие инструкции pip install "pymssql<3.0" pip install --upgrade --upgrade-strategy only-if-needed c:\temp\sqlmlutils-0.7.2.zip Шаг 3. Загрузите необходимые пакеты После выполнения шага 2 вы сможете загружать нужные вам пакеты в SSMLS 2019 посредством запуска скрипта на Python в VS Code. Ниже представлен фрагмент кода, позволяющий загрузить библиотеку pandas в SSMLS 2019: import sqlmlutils connection = sqlmlutils.ConnectionInfo( server="<имя сервера>«, database=»<база данных>«,
uid=»<имя пользователя>«, pwd=»<пароль>«))
sqlmlutils.SQLPackageManager(connection).install(«pandas»)

Локальный шлюз данных
Локальный шлюз данных (on-premises data gateway) представляет собой инструмент для обеспечения безопасной передачи данных между локальными источниками данных и облаком Azure. Локальный шлюз может быть запущен в двух режимах: персональном и стандартном. Если вы захотите развернуть решения, рассматриваемые в главах с третьей по девятую, в службе Power BI и запускать их с определенной периодичностью, вам понадобится установить локальный шлюз данных в персональном режиме. На момент написания книги скрипты на R и Python, используемые в Power Query, могут быть запущены через локальный шлюз только в персональном режиме. Недостатком использования шлюза в таком режиме является то, что ваше решение нельзя будет назвать корпоративным, поскольку доступ к нему будет, как ясно из названия режима, только у вас.
Но в главе 10 вы узнаете, как можно использовать R и Python в корпоративном решении на базе Power BI через SQL Server Machine Learning Services (SSMLS). При использовании служб SSMLS 2019 ваш код на R и Python будет заключен в специальную хранимую процедуру на языке T-SQL. А хранимые процедуры допустимо использовать в стандартном режиме локального шлюза. В главе 10 вы также познакомитесь с основами рефакторинга кода на R и Python, описанного в предыдущих главах, под специальные хранимые процедуры, используемые в службах SSMLS 2019. Заметьте, что визуальные элементы R не полагаются на локальный шлюз, поскольку они обрабатываются при помощи экземпляра R непосредственно в службе Power BI.
Источники информации
В данной книге описываются разнообразные технологии, и было бы невозможно досконально рассказать о них всех. Понимая это, я решил предоставить вам наиболее полный список литературы для самостоятельного изучения тем, которые вам пока не знакомы. Также я включил ссылку на репозиторий с исходными кодами, используемыми в книге, и дополнил список ссылками на полезные ресурсы.
Репозиторий книги
Исходный код для всех упражнений из книги собран в едином репозитории по адресу https://github.com/Apress/adv-analytics-in-power-bi-w-r-and-python. Полные скрипты на R и Python сгруппированы в хранилище по главам и темам. В репозитории также представлены актуальные источники данных, используемые в примерах, или информация о получении доступа к ним.
Ресурсы по R
Книги:
R for Data Science: прекрасная книга, в которой о языке R рассказывает один из самых плодовитых создателей пакетов Хэдли Уикхэм (Hadley Wickham). В ней в том числе описываются полезные пакеты из авторской библиотеки tidyverse. Книга доступна бесплатно по адресу https://r4ds.had.co.nz;
An Introduction to Statistical Learning: With Applications in R: эта книга описывает базовые принципы статистики, без которых не обойтись при изучении машинного обучения с R. Книге уже несколько лет, но она не утратила популярности в сообществе языка R. Часто материалы из этой книги используются в качестве учебных пособий для курсов во многих колледжах и университетах.
Веб-сайты:
RStudio: на данном портале собраны разнообразные обучающие ресурсы по языку R. Для получения доступа к ним перейдите в меню на вкладку Resources, после чего вам будет предложен выбор бесплатных вебинаров, инструкций и книг. Также на этом сайте вы можете скачать последнюю версию рекомендованной среды для работы с языком R – R Studio. Адрес сайта: https://rstudio.com;
The R Graph Gallery: на этом сайте представлены визуальные элементы, созданные при помощи R, с полными исходными кодами. Вы можете использовать эти наработки для собственных идей. Адрес сайта: www.r-graph-gallery.com;
R Bloggers: прекрасный сайт для общения в сообществе по языку R. Адрес сайта: www.r-bloggers.com.
Обучение:
dplyr tutorial Part 1: первая из двух частей обучающего видео по пакету dplyr от его автора Хэдли Уикхэма. Материал был записан в 2014 году, но до сих пор не утратил своей актуальности. Ссылка на первую часть видео: www.youtube.com/watch?v=8SGif63VW6E;
dplyr tutorial Part 2: вторая часть обучающего видео от Хэдли Уикхэма: www.youtube.com/watch?v=Ue08LVuk790.
Ресурсы по Python
Книги:
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: превосходная книга, освещающая применение принципов машинного обучения и искусственного интеллекта к вашим данным с помощью инструментов Python. Книга доступна для покупке на большинстве ресурсов;
Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython: эта книга написана автором библиотеки pandas Уэсом Маккинни (Wes McKinney). Pandas по сей день является наиболее популярной библиотекой для работы с данными в Python. Книга доступна для покупке на большинстве ресурсов.
Видеоблоги, подкасты и курсы:
Data School: это канал в YouTube от Кевина Маркхэма (Kevin Markham), на котором публикуется масса обучающих видео на тему анализа данных в Python при помощи библиотек pandas, matplotlib, scikit-learn и других. Кевин прекрасно справляется с задачей донесения до слушателей сложных тем довольно простым и понятным языком. Адрес канала: www.youtube.com/channel/UCnVzApLJE2ljPZSeQylSEyg;
Google’s Python Class: это достаточно старый, но все еще актуальный ресурс введения в Python от Google. В данном обучающем материале прекрасно представлено введение в структуры данных языка и другие базовые концепции, лежащие в основе любого проекта. Также на сайте присутствует весьма информативный раздел, посвященный регулярным выражениям. Адрес двухдневного курса по Python: https://developers.google.com/edu/python;
Talk Python to Me: очень информативный подкаст, в котором обсуждаются разные области применительно к Python, в том числе и анализ данных. Адрес подката: https://talkpython.fm.
Веб-сайты:
PEP 8: одним из главных преимуществ Python в сравнении с другими языками программирования является его доступность и легкость чтения исходного кода. В отличие от большинства языков, Python жестко регламентирует стиль написания кода для облегчения его восприятия в дальнейшем. И именно стилю программирования на Python посвящен этот великолепный сайт, находящийся по адресу https://pep8.org.
Ресурсы по Power BI
Видеоблоги:
Guy in a Cube: однозначно лучший видеоблог по Power BI. На этом канале YouTube освещаются все важнейшие аспекты Power BI, включая администрирование, моделирование данных и визуализацию. Ссылка на канал: www.youtube.com/channel/UCFp1vaKzpfvoGai0vE5VJ0w.
Веб-сайты:
SQLBI: создатели этого сайта (Марко Руссо и Альберто Феррари) являются очень авторитетными авторами книг по языку запросов DAX применительно к Power BI. На их сайте содержится очень много статей, видеоуроков и обучающих материалов по DAX, а также полезные инструменты вроде DAX Studio;
Tabular Editor: Tabular Editor – это инструмент с открытым кодом, который должен быть в арсенале любого серьезного разработчика Power BI. В скором времени он должен быть интегрирован в Power BI. Чтобы лучше изучить этот полезный инструмент, перейдите по ссылке, ведущей на его страницу: https://tabulareditor.com.
Книги:
The Definitive Guide to DAX (Подробное руководство по DAX): эта книга – настоящая библия для тех, кто хочет освоить язык запросов DAX, используемый в Power BI. Книга доступна для покупки в большинстве магазинов;
M Is for Data Monkeys: в этой книге дано введение в функциональный язык программирования M, используемый в инструменте Power Query. Авторы проделали хорошую работу, рассказав обо всех основных принципах и возможностях преобразования данных доступным языком. Эта книга может быть использована как основа для перехода к более сложным ресурсам по языку M. Книга доступна для покупки в большинстве магазинов.
Подкасты:
BIFOCAL: прекрасный подкаст, позволяющий быть в курсе всего, что происходит в мире Power BI. Найти его можно на популярных платформах подкастинга.
Общие ресурсы
Книги:
Data Science for Business: книга от Фостера Провоста (Foster Provost) и Тома Фосетта (Tom Fawcett), в которой представлены основные принципы науки о данных (data science) строгим языком программиста. Это очень популярная книга в сообществе бизнес-аналитики и может заинтересовать тех, кто ищет способы реализации методов науки о данных в области бизнес-приложений. Книга доступна для покупки во многих магазинах.
Веб-сайты:
Data Science Central: это один из самых популярных сайтов, посвященных науке о данных. Адрес сайта: www.datasciencecentral.com;
Kaggle: сайт изначально задумывался как место для соревнований в области программирования, но сейчас перерос в нечто большее. На этом сайте можно найти большое количество наборов данных, которые удобно использовать при работе с примерами по машинному обучению и искусственному интеллекту. Адрес сайта: www.kaggle.com;
ExcelTv: Microsoft Excel был и в обозримом будущем останется одним из основных инструментов в аналитике данных. Авторы сайта ExcelTv подготовили большое количество обучающих материалов, которые помогут вам стать настоящим профессионалом в Excel. Адрес сайта: https://excel.tv.
Видеоблоги и обучающие сайты:
Excel on Fire: Oz – создатель и ведущий этого видеоблога, – пожалуй, самый яркий и необычный преподаватель Excel и Power Query. За последние несколько лет он записал большое количество полезных видео по искусному преобразованию данных при помощи инструмента Power Query. При этом сами ролики записаны на высшем уровне, а способность ведущего доносить сложные вещи простым и понятным языком просто поражает. Ссылка на канал: www.youtube.com/user/WalrusCandy/featured;
Regular Expression Tutorial от Кори Шафера (Corey Schafer): отличный канал с вводными и продвинутыми уроками по использованию регулярных выражений. Поверьте, после просмотра нескольких видео на этом канале вы не только поймете, что означают все эти мудреные символы в регулярных выражениях, но и поразитесь, насколько полезными они могут быть при решении самых разных задач. Ссылка на видеоблог: www.youtube.com/watch?v=sa-TUpSx1JA.
Подкасты:
Analytics on Fire podcast: это универсальный источник еженедельных мастер-классов по бизнес-аналитике от ведущих специалистов в этой области. Настраивайтесь на волну каждую неделю, и вы будете получать наслаждение от этого микса из образования и развлечения. Найти подкаст можно на популярных платформах подкастинга;
Data Skeptic: в этом подкасте вопросы из области науки о данных повышенной сложности преподносятся в простой и легкой для усвоения форме с очень увлекательными примерами. Найти подкаст можно на популярных платформах подкастинга;
Freakonomics: изучить технические аспекты науки о данных – это лишь полдела. Очень важно также развить в себе аналитические способности. И этот подкаст, безусловно, поможет вам в этом. Найти подкаст можно на популярных платформах подкастинга;
SQL Data Partners: это очень познавательный и нескучный подкаст, освещающий вопросы, касающиеся платформы данных Microsoft (Microsoft Data Platform). Ведущие подкаста – признанные специалисты в этой области, но при этом они много шутят и смеются. Возможно, они будущие комики. 🙂 Их подкаст можно найти на популярных платформах подкастинга;
Storytelling with Data: этот прекрасный подкаст от Коул Нафлик (Cole Knaflic) посвящен различным техникам визуализации данных. Коул также является автором одноименной книги. Найти ее подкаст можно на популярных платформах подкастинга.
Описание глав
Глава 1. Грамматика графиков.
Вероятно, одним из главных превосходств языка R над Python является его богатая оснащенность средствами визуализации данных. Ведущим пакетом R в области визуализации является ggplot2, базирующийся на концепции, известной как грамматика графиков (grammar of graphics). В данной главе мы изучим основы графического пакета ggplot2 и рассмотрим его применение на практике совместно с Power BI.
Глава 2. Создание пользовательских визуализаций на R в Power BI при помощи ggplot2.
Одно из явных преимуществ пакета ggplot2 состоит в выразительности, с которой вы можете создавать свои собственные визуализации. В данной главе мы на нескольких примерах продемонстрируем идею выбора типа визуализации на языке R из всех доступных в Power BI при помощи пакета ggplot2.
Глава 3. Чтение файлов CSV.
В этой главе мы рассмотрим концепции применительно к языкам R и Python, позволяющие динамически комбинировать файлы CSV, что с использованием инструмента Power Query было бы достаточно затруднительно.
Глава 4. Чтение файлов Excel.
Здесь мы научимся при помощи R и Python динамически сочетать рабочие листы из нескольких рабочих книг Excel, что в Power Query реализовать бывает непросто.
Глава 5. Чтение данных из SQL Server.
Из данной главы вы узнаете, как посредством R и Python загружать данные из SQL Server в модель данных Power BI. Одним из преимуществ такого метода загрузки информации – и мы покажем это в наших примерах – является возможность осуществления логирования.
Глава 6. Чтение в модель данных Power BI посредством API.
В данной главе вы познакомитесь со способами извлечения данных в Power BI при помощи API с использованием языков R и Python. Посредством Power Query реализовать подобные методы бывает довольно сложно, а иногда просто невозможно.
Глава 7. Продвинутые методы обработки текстовой информации и сопоставление с шаблоном.
Из этой главы вы узнаете, как при помощи регулярных выражений в R и Python осуществлять сложные манипуляции со строками. Регулярные выражения – очень мощный инструмент для работы с текстом, и если в R и Python он присутствует по умолчанию, то в Power Query пока нативно не реализован.
Глава 8. Вычисляемые столбцы при помощи R и Python.
Здесь мы рассмотрим технику создания сложных математических выражений при помощи R и Python. Вы познакомитесь с основами написания математических формул и узнаете, как использовать готовые функции, скрывающие от вас истинную сложность вычислений. В качестве примера мы используем формулу гаверсинуса.
Глава 9. Применение методов машинного обучения и искусственного интеллекта в моделях данных Power BI.
В девятой главе книги мы обсудим множество тем, включая использование в бизнес-аналитике методов машинного обучения и искусственного интеллекта. Начнем мы с примеров того, как применять пользовательские модели машинного обучения, реализованные на R и Python, к модели данных Power BI. Затем посмотрим, как можно улучшить модели данных Power BI с применением службы Microsoft Cognitive Services без необходимости оформления дорогостоящей подписки на Power BI Premium. При этом мы не будем ограничиваться лишь инструментами от Microsoft и покажем, как можно воспользоваться службой IBM Watson Natural Language Understanding для выполнения специфического анализа текста, недоступного в рамках Microsoft Cognitive Services.
Глава 10. Создание моделей анализа данных и скриптов для обработки информации.
В заключительной главе мы посмотрим, как можно воспользоваться языками программирования R и Python в корпоративных решениях, внедренных в Power BI. Показанные методы ориентированы на бесплатные решения, доступные пользователям, у которых уже установлена локальная версия SQL Server версии 2017 и выше.

Теперь, когда все подготовительные мероприятия завершены, вы можете приступать к чтению книги. Инструмент Power BI славится своими богатыми возможностями в области визуализации данных. И начнем мы с того, как можно значительно расширить их при помощи языка R и пакета ggplot2.

Текст неполный и представлен для ознакомления…

Купить книгу:
Ссылка: https://dmkpress.com/catalog/computer/data/978-5-97060-923-1/

Промокоды:
Бумажная версия: промокод Ginko_PowerBI_RP_paper
Версия PDF: промокод Ginko_PowerBI_RP_PDF