SAS connect to Hadoop. Три способа взаимодействия SAS и Hadoop.

Всем привет.

Уже достаточно давно у всех на слуху слово Hadoop или Big Data.
Многие про это слышали, но мало кто видел.

Тем неменее SAS уже официально является партнером таких мировых лидерова как Cloudera  и Hortonworks.

Если зайти на сайт SAS, то можно увдидеть множество макретинговой информации о приимуществах hadoop и визуализации SAS.

Однако когда дело доходит непосредственно до работабы все оказывается не так просто…

Есть официальная документация SAS по тому как настраивать соединение SAS c Hadoop. Его можно посмотреть тут.

А дело в том, что необходимо создавать папку и прописывать путь SAS_HADOOP_JAR_PATH и класть туда специальный jar файлы из уставновленного hadoop. Это может быть как Cloudera, Hortonworks, Apache Hadoop, IBM BigInsigths.  Но какие именно нужны фалы вам об этом никто не скажет. Так сказать разбирайтесь сами. С этим пришлось изрядно повозить.

Так вот возвращаясь к названию статьи есть три способа соединяться с hadoop:

1. Непосредсвенно через файлы. В таком случае обращение идет сразу к файловой системе hadoop HDFS:

2. Через MapReduce. В данном случае вы уже можете писать и запускать свои mapreduce программы.

3. Через SAS/Access. В данном случае взаимодейсвие идет через Hive Server, а не непосредсвенно через hadoop.

Таким образом, как можно видеть, не обязательно иметь SAS Access to Hadoop для того чтобы взаимодейсвовать с Hadoop.

Данные картинки я взял из презентации Jeff Bailey, который непосредсвенно отвечает за плагины SAS Access к различным базам данных.

Если у Вас появятся вопросы, связанные с коннектом SAS и Hadoop обращайтесь. Или поделитесь опытом — сколько времени вы на это потратили :).

С уважением,
Тимаков Николай.