Сравнение скорости выполнения в Hive и Impala через SAS Enterprise Guide

Все привет.

 

В текущем уроке посмотрим на разницу в скорости выполнения простого запроса агрегации данных (69 млн. строк) на Hive и Impala.

Также рассмотрим что нужно чтобы настроить коннект к hadoop кластеру.

 

Если у Вас остались вопросы можете задать их к текущему уроку.

Сравнение скорости выполнения в Hive и Impala через SAS Enterprise Guide: 4 комментария

  1. Добрый день.
    Николай, а у Вас случаем не было опыта настройки ODBC коннекторов к Hive и Impala? Мы используем кластер hadoop от cloudera. В интернетах нет практически никакой информации по настройкам ODBC и непонятно какие минусы у данных ODBC коннекторов, если их можно настроить. Возможно они не поддерживают какие-нибудь операции и.т.п

    1. Святослав, удалось настроить?

      Да я настраивал odbc коннекторы и к hive и к impala. Об этом как раз есть в соответствующих уроках.

  2. Добрый день.
    Настроить пока не удалось, плотно не занимался вопрос т.к все перебили более приоритетные задачи.
    А в каких уроках есть инфо по настройке odbc? я находил несколько, но там немного не то было, там простая передача в hdfs файла была.

    1. Святослав,

      в общем odbc к hadoop и к impala — это разные вещи.
      К Impala odbc драйвер скачивается с ихнего сайта:
      https://www.cloudera.com/downloads/connectors/impala/odbc/2-5-41.html

      Что касается hadoop, то в последних версиях SAS появилась возможность собрать все необходимые jar файлы автоматом через sas deploy managment. Вроде тоже рассказывал про это в уроках.
      Там целый документ создали как сделать коннект 🙂
      https://support.sas.com/content/dam/SAS/support/en/documentation/third-party-reference/9-4-hadoop-configuration-guide.pdf

Добавить комментарий

Войти с помощью: 

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.