Возникает вопрос сможет ли этот продукт полностью заменить SAS Enterprise Guide?
Честно говоря подробно об конкуренции этих продуктов рассмотрено здесь.
Но очевидно одно, что многие фанаты apple могут теперь радоваться. Да и не только они. Те кто предпочитают Ubuntu, также теперь могут писать код прямо в браузере.
Теперь не надо админам заморачиваться с локальной установкой на каждый компьютер SAS EG.
В скором времени посмотрим на работу в SAS Studio в живую.
Не для кого не секрет, что объем данных, с которыми мы работаем постоянно растет. И анализировать возрастающий объем становиться все сложнее. Скорость работы ваших программ постоянно увеличивается и долего не всегда она увеличивается пропорционально объему поступаемых данных.
Так вот сейчас все большую популярность набирают MPP системы.
И речь уже не стоит в том «будут ли компании внедрять подобные системы или нет ?», а стоит лишь вопрос «когда ?»
Причем зачастую решение принимается, когда уже нет больше сил терперь, то что работает сейчас.
Так вернемся к нашему заголовку.
Одно и применений связки SAS + Hadoop — это просто хранение данных, как в решение SAS Visual Analytics. Там Hadoop используется как источник для LASR Server и позволяет быстро подгружать в оперативную память необходимые для анализа данные. Скорость увеливается в десятки раз, по сравнению с тем, как если бы грузились бы данные просто с внешненго источника.
Другое применение связки SAS + Hadoop — это проваливание вычислений в Hadoop (или другую MPP платформу, как например Teradata, Greenplum и другие). Примером может служить решение «SAS Scoring Accelerator» для различных платформ.
В данном случае скоринговые модели считаются на сторонее MPP платформы, что дает значительный выигрыш во времени потраченное на скоринг.
Итак, вчера мы рассмотрели способ соединения SAS напрямую с HDFS — файловой системой Hadoop (со статье можно ознакомиться, перейдя по ссылке).
Сегодня же рассмотрим другой подход, а именно тот, который SAS пропагандирует как наиболее правильный, т.к. Вам не нужно будет изучать другой язык, а писать можно по старинке через SAS Data Step или через Proc SQL.
Для начала посмотрим на тот как происходит соединение:
Елси вы внимательно посмотрите на эту картинку и ту, что была во вчерашнем посте, то заметите, что JARs файлы все также нужны. Однако уже не нужно писать конфигурационный xml файл. Также стоит обратить внимание, что соединение идет через Hive Server.
И так давайте рассмотрим пример соединения:
Для большей наглядности подключены опции sastrace, sastraceloc, notsuffix.
Из лога видно, как проходит соединение. По умолчанию соединение идет с базой данных DEFAULT, однако можно конечно же указать любую имеющуюся другую базу.
Также всегда идет в конце выполнение кода SHOW TABLES — для того чтобы вы могли видеть список таблиц в вашей библиотеке.
Теперь давайте попробуем прогрузить таблицу размером чуть больше двух гигабайта и с более чем 13 миллионами записей:
Можно увидеть в логе, как SAS Access преобразует кода Data step в код Hive SQL.
Прогрузка 13 697 371 строк заняла чуть больше минуты.
Теперь давайте удалим данную таблицу, написав код через Proc SQL:
Также в логах можно видеть преобразование кода в Hive SQL.
Даный пример более наглядно с комментариями можно посмотреть в ниже приведенном виде-уроке: