Всем привет!
Речь пойдет о Distributed версии, состоящей из нескольких серверов, образующих кластер.
Парадигма системы распределения данных для VA состоит в том, что все сервера считаются одинаковыми c одинаковым количеством оперативной памяти и процессорными мощностями. И все данные распределяются по серверам равномерно.
Когда речь идет о прямой заливке данных в LASR, как показано ниже на рисунке, то за равномерную загрузку отвечают SAS Embedded Processes (SAS EP), находящиеся на стороне MPP платформы:
Так к чему я об этом все говорю?
Дело в том, что если вы захотите расширить мощности своего кластера и добавите туда пару более мощных серверов:
То не будет достигнут эффект большого увеличения производительности (даже если эти два сервера по ресурсам равны всем предыдущим) производительность в данном случае увеличиться лишь на 50%.
И еще не дай бог вы решите увеличить мощности, добавив более слабый сервер в кластер, тем самым вы ухудшите работу всего кластера.
Так что будьте внимательны при сайзинге вашего кластера. Ведь может оказаться, что придется менять вообще все сервера кластера на более новые, чтобы увеличить производительность.
Источник статьи можно прочитать здесь.
С уважением,
Николай.
Добрый день.
Подскажите, у нас примерно такая же архитектура. Но интересует вопрос, у нас получается несколько нод образуют кластер, на каждой ноде выделено по 100гиг оперативной памяти, то-есть в совокупности в LASR сервер можно загрузить порядка 400гиг. этими 4-мя нодами управляет главная нода, на которой установлен LASR, так вот при открытии отчёта у нас в основном ресурсы расходуются главной ноды при этом рабочие ноды простаивают, на них занимается только оперативная память. Вопрос в том, расчёты выполняются только на главной ноде и она забирает просто данные с других нод из оперативной памяти?
Святослав,
то что ты описал очень странно.
Провели опыт с отчетами и оказалось, что main node наоборот особо не напрягается, а вот нагрузка на slave nodes примерно увеличивается равномерно.
Нагрузка должна быть равномерной. Главная нода не забирает себе никакие данные, это было бы глупо, т.к. если ты загрузишь на 400 Гб таблицу, то она не поместиться в главную ноду (т.к. в ней всего 100 Гб).
Чем измеряете нагрузку?