SAS plus Hadoop. А для чего нужно вообще связка Hadoop и SAS?

Всем привет.

Не для кого не секрет, что объем данных, с которыми мы работаем постоянно растет.
И анализировать возрастающий объем становиться все сложнее. Скорость работы ваших программ постоянно увеличивается и долего не всегда она увеличивается пропорционально объему поступаемых данных.

Так вот сейчас все большую популярность набирают MPP системы.

И речь уже не стоит в том «будут ли компании внедрять подобные системы или нет ?», а стоит лишь вопрос «когда ?»

Причем зачастую решение принимается, когда уже нет больше сил терперь, то что работает сейчас.

Так вернемся к нашему заголовку.

Одно и применений связки SAS + Hadoop — это просто хранение данных, как в решение SAS Visual Analytics. Там Hadoop используется как источник для LASR Server и позволяет быстро подгружать в оперативную память необходимые для анализа данные.
Скорость увеливается в десятки раз, по сравнению с тем, как если бы грузились бы данные просто с внешненго источника.

Другое применение связки SAS + Hadoop — это  проваливание вычислений в Hadoop (или другую MPP платформу, как например Teradata, Greenplum и другие).
Примером может служить решение «SAS Scoring Accelerator» для различных платформ.

В данном случае скоринговые модели считаются на сторонее MPP платформы, что дает значительный выигрыш во времени потраченное на скоринг.

SAS connect to Hadoop. Способ подсоединения через Filename. Part1

Всем добрый день.

Сегодня рассмотрим пример, как можно создавать файлы в hadoop, а также делать записи в эти файлы и после забирать данные.


Визуально схема взаимодействия SAS и Hadoop выглядит следующим образом:

Итак самое главное, что Вам нужно сделать, это написать следующий конфигурационный xml файлик:

Где сервер hadoop_main_node, нужно заменить на Ваш сервер, а точнее на гловной Node hadoop.

После этого пишем обычный filename с указанием access method — HADOOP, обязательно в опциях нужно указать путь к конфигурационному xml файлу.

В приведенном примере мы созадли файл test.txt и записали туда одну записть «TEST test Test1»

Теперь убедимся в том, что данный файл появился в файловой структуре Hadoop:

Первая команда была выполнена до запуска sas кода, вторая уже после. Сравнив, мы видим, что появился наш файлик test.txt.

Теперь давайте попробуем забрать эти данные. Делается это также просто:

Мы видим, что в work появился файлик Test, в котором есть как раз одна наша запись.

В дальнейших уроках мы рассмотрим другой метод соединения с Hadoop, а именно через SAS/Access.

Вкратце обо всех трех способах взаимодействия SAS и Hadoop писал в прошлой статье.

До скорых встеч.
С уважением,
Тимаков Николай.

SAS connect to Hadoop. Три способа взаимодействия SAS и Hadoop.

Всем привет.

Уже достаточно давно у всех на слуху слово Hadoop или Big Data.
Многие про это слышали, но мало кто видел.

Тем неменее SAS уже официально является партнером таких мировых лидерова как Cloudera  и Hortonworks.

Если зайти на сайт SAS, то можно увдидеть множество макретинговой информации о приимуществах hadoop и визуализации SAS.

Однако когда дело доходит непосредственно до работабы все оказывается не так просто…

Есть официальная документация SAS по тому как настраивать соединение SAS c Hadoop. Его можно посмотреть тут.

А дело в том, что необходимо создавать папку и прописывать путь SAS_HADOOP_JAR_PATH и класть туда специальный jar файлы из уставновленного hadoop. Это может быть как Cloudera, Hortonworks, Apache Hadoop, IBM BigInsigths.  Но какие именно нужны фалы вам об этом никто не скажет. Так сказать разбирайтесь сами. С этим пришлось изрядно повозить.

Так вот возвращаясь к названию статьи есть три способа соединяться с hadoop:

1. Непосредсвенно через файлы. В таком случае обращение идет сразу к файловой системе hadoop HDFS:

2. Через MapReduce. В данном случае вы уже можете писать и запускать свои mapreduce программы.

3. Через SAS/Access. В данном случае взаимодейсвие идет через Hive Server, а не непосредсвенно через hadoop.

Таким образом, как можно видеть, не обязательно иметь SAS Access to Hadoop для того чтобы взаимодейсвовать с Hadoop.

Данные картинки я взял из презентации Jeff Bailey, который непосредсвенно отвечает за плагины SAS Access к различным базам данных.

Если у Вас появятся вопросы, связанные с коннектом SAS и Hadoop обращайтесь. Или поделитесь опытом — сколько времени вы на это потратили :).

С уважением,
Тимаков Николай.