SAS Access to Hadoop. Соединение с Hadoop через SAS Access. Part 2.

Всем привет.

Итак, вчера мы рассмотрели способ соединения SAS напрямую с HDFS — файловой системой Hadoop (со статье можно ознакомиться, перейдя по ссылке).

Сегодня же рассмотрим другой подход, а именно тот, который SAS пропагандирует как наиболее правильный, т.к. Вам не нужно будет изучать другой язык, а писать можно по старинке через SAS Data Step или через Proc SQL.

Для начала посмотрим на тот как происходит соединение:

Елси вы внимательно посмотрите на эту картинку и ту, что была во вчерашнем посте, то заметите, что JARs файлы все также нужны. Однако уже не нужно писать конфигурационный xml файл. Также стоит обратить внимание, что соединение идет через Hive Server.
И так давайте рассмотрим пример соединения:
Для большей наглядности подключены опции sastrace, sastraceloc, notsuffix. 
Из лога видно, как проходит соединение. По умолчанию соединение идет с базой данных DEFAULT, однако можно конечно же указать любую имеющуюся другую базу. 
Также всегда идет в конце выполнение кода SHOW TABLES — для того чтобы вы могли видеть список таблиц в вашей библиотеке. 
Теперь давайте попробуем прогрузить таблицу размером чуть больше двух гигабайта и с более чем 13 миллионами записей:
Можно увидеть в логе, как SAS Access преобразует кода Data step в код Hive SQL.
Прогрузка 13 697 371 строк заняла чуть больше минуты.
Теперь давайте удалим данную таблицу, написав код через Proc SQL:
Также в логах можно видеть преобразование кода в Hive SQL.
Даный пример более наглядно с комментариями можно посмотреть в ниже приведенном виде-уроке:

Если есть какие-то вопросы задавайте.