SAS connect to Hadoop. Три способа взаимодействия SAS и Hadoop.

Всем привет.

Уже достаточно давно у всех на слуху слово Hadoop или Big Data.
Многие про это слышали, но мало кто видел.

Тем неменее SAS уже официально является партнером таких мировых лидерова как Cloudera  и Hortonworks.

Если зайти на сайт SAS, то можно увдидеть множество макретинговой информации о приимуществах hadoop и визуализации SAS.

Однако когда дело доходит непосредственно до работабы все оказывается не так просто…

Есть официальная документация SAS по тому как настраивать соединение SAS c Hadoop. Его можно посмотреть тут.

А дело в том, что необходимо создавать папку и прописывать путь SAS_HADOOP_JAR_PATH и класть туда специальный jar файлы из уставновленного hadoop. Это может быть как Cloudera, Hortonworks, Apache Hadoop, IBM BigInsigths.  Но какие именно нужны фалы вам об этом никто не скажет. Так сказать разбирайтесь сами. С этим пришлось изрядно повозить.

Так вот возвращаясь к названию статьи есть три способа соединяться с hadoop:

1. Непосредсвенно через файлы. В таком случае обращение идет сразу к файловой системе hadoop HDFS:

2. Через MapReduce. В данном случае вы уже можете писать и запускать свои mapreduce программы.

3. Через SAS/Access. В данном случае взаимодейсвие идет через Hive Server, а не непосредсвенно через hadoop.

Таким образом, как можно видеть, не обязательно иметь SAS Access to Hadoop для того чтобы взаимодейсвовать с Hadoop.

Данные картинки я взял из презентации Jeff Bailey, который непосредсвенно отвечает за плагины SAS Access к различным базам данных.

Если у Вас появятся вопросы, связанные с коннектом SAS и Hadoop обращайтесь. Или поделитесь опытом — сколько времени вы на это потратили :).

С уважением,
Тимаков Николай.

SAS connect to Hadoop. Три способа взаимодействия SAS и Hadoop.: 6 комментариев

  1. Николай, Добрый День!
    Мы работаем с SAS VA и хотели бы использовать преимущества hadoop.
    Скажите, можно ли сделать отчет в SAS VA из таблиц, записанных в HDFS?

    1. Алексей, да

      если их предварительно поднять в память SAS Visual Analytics.Напрямую настроить отчеты на какие-либо другие источники нельзя.

      Т.е. отчеты можно строить только на таблицах, находящихся в оперативной памяти, т.е. на VA таблицах.
      А загонять туда можно откуда угодно информацию. Просто из hadoop будет намного быстрее осуществляться поднятие в память.

      1. В таком случае я не очень понимаю смысл Hadoop для SAS VA… Он получается бесполезен

        1. Алексей, hadoop используется как источник данных, а также как место для хранения данных. Если память заканчивается, то данные можно выгрузить в hadoop и когда они снова понадобятся опять из загрузить. Также можно использовать вместо hadoop и любую базу данных и сами таблицы SAS. Однако при правильном использовании hadoop загрузка данных будет осуществляться в десятки раз быстрее. Поэтому и используется hadoop по умолчанию.
          Надеюсь я смог ответить на Ваш вопрос.

  2. Николай, подскажите пожалуйста по такому вопросу. Используем SAS VA, но таблицы для поднятия в память у нас загружаются автолоадом с другого сервера по сети, что очень долго. Хотели бы использовать Hadoop именно в автозагрузке параллельно.
    То есть есть желание, чтобы обновленные данные помимо автолоада в память загружались параллельно в Hadoop. Подозреваю нам это поможет в случаях, когда например необходимо ребутнуть систему, в данном случае более-менее свежие данные мы сможем оперативно поднять в память после перезапуска, а обновления уже доедут автолоадам намного быстрее т.к не нужно будет опять в память заливать весь объем таблиц. Процесс проверит память и дольет только необходимое. Есть ли инструкция или готовый скрипт, который позволяет грузить и в hadoop и в память?

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.