SAS Visual Analytics. Как работает балансировщик?

Всем привет!

sas-visual-analytics

 

Речь пойдет о  Distributed версии, состоящей из нескольких серверов, образующих кластер.

fig1

Парадигма системы распределения данных для VA состоит в том, что все сервера считаются одинаковыми c одинаковым количеством оперативной памяти и процессорными мощностями. И все данные распределяются по серверам равномерно.

Когда речь идет о прямой заливке данных в LASR, как показано ниже на рисунке, то за равномерную загрузку отвечают SAS Embedded Processes (SAS EP), находящиеся на стороне MPP платформы:

lasr

 

Так к чему я об этом все говорю?

Дело в том, что если вы захотите расширить мощности своего кластера и добавите туда пару более мощных серверов:

fig2

То не будет достигнут эффект большого увеличения производительности (даже если эти два сервера по ресурсам равны всем предыдущим) производительность в данном случае увеличиться лишь на 50%.

И еще не дай бог вы решите увеличить мощности, добавив более слабый сервер в кластер, тем самым вы ухудшите работу всего кластера.

Так что будьте внимательны при сайзинге вашего кластера. Ведь может оказаться, что придется менять вообще все сервера кластера на более новые, чтобы увеличить производительность.

Источник статьи можно прочитать здесь.

С уважением,
Николай.

 

SAS Visual Analytics. Как работает балансировщик?: 2 комментария

  1. Добрый день.
    Подскажите, у нас примерно такая же архитектура. Но интересует вопрос, у нас получается несколько нод образуют кластер, на каждой ноде выделено по 100гиг оперативной памяти, то-есть в совокупности в LASR сервер можно загрузить порядка 400гиг. этими 4-мя нодами управляет главная нода, на которой установлен LASR, так вот при открытии отчёта у нас в основном ресурсы расходуются главной ноды при этом рабочие ноды простаивают, на них занимается только оперативная память. Вопрос в том, расчёты выполняются только на главной ноде и она забирает просто данные с других нод из оперативной памяти?

  2. Святослав,
    то что ты описал очень странно.
    Провели опыт с отчетами и оказалось, что main node наоборот особо не напрягается, а вот нагрузка на slave nodes примерно увеличивается равномерно.

    Нагрузка должна быть равномерной. Главная нода не забирает себе никакие данные, это было бы глупо, т.к. если ты загрузишь на 400 Гб таблицу, то она не поместиться в главную ноду (т.к. в ней всего 100 Гб).

    Чем измеряете нагрузку?

Добавить комментарий

Войти с помощью: 

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.