Возможность познакомиться с SAS Enterprise Miner

Всем привет!

Хочу познакомить вас с замечательным ресурсом:

В нём вы найдёте то, что интересует многих — работу с Data Mining инструментами, а также работу с программным обеспечением, которое позволяет это. 
 
В частности, меня заинтересовала работа с SAS Enterprise Miner. 
На мой взгляд, книжки-статьи очень хороши, хотя местами сложно и слишком детально. Тем не менее, это лучшее, что есть сегодня на русском языке.
Смотрим, изучаем!

Альтернатива SAS — другой SAS :)

Несколько месяцев назад я видел новость, что компания SAS Institute подала иск на какую-то другую компанию и суд решил что язык программирования SAS не является собственностью компании SAS Inst.

Оказывается ответчиком была компания World Programming. Узнал я это на портале Quora, где кто-то задал вопрос про то сколько же в среднем стоит SAS. В ответах была ссылка на то что WPS предлагает свою реализацию языка SAS, но гораздо дешевле. Тем не менее на сайте я не нашел подтверждения, как так для того чтобы узнать цену нужно отправить запрос.

Интересные особенности о WPS найденные на их сайте:

И еще новость, но касательно R. Revolution Analytics (компания поставляющая коммерические решения на основе R), сделали доступной для свободного пользования расширенную библиотекой Intel MKL версию языка — Revolution R open. Сравнительные графики скорости на различных бенчмарках можно посмотреть на r-bloggers.

SAS Webcast в сентябре 2014 года

23 сентября прошёл очередной вебинар SAS, где обсуждались ближайшие изменения и нововведения в продукции компании SAS.  
Если вы являетесь партнёром компании SAS, то часовой вебинар можно просмотреть в оригинале по ссылке. Сентябрьский стрим был запущен в рамках «новой» для SAS партнёрской программы Partner Portal, о которой будет немного ниже.

 

Следующее аналогичное мероприятие пройдёт в январе 2015 года. Следите за новостями.
Я опишу основные позиции, которые были озвучены.
В вебинаре участвовало 3 человека:
Russ Cobb,Vice President of Alliances and Product Marketing
 Armistead Sapp, Executive Vice President and Chief Technology Officer
  Randy Guard, Vice President of Product Management
 Обсуждалось несколько тем:
1.       Изменения и улучшения политики парнёрства с SAS

Из всего списка я хочу выделить 2 момента:
a.       Появление курсов бесплатного обучения
b.      Появление SAS Partner Portal, пока в рамках Beta Trial.
Данный портал позволит не только получить от SAS индивидуальный подход по получению необходимой информации, но так же какого рода информация будет представлена: техническая поддержка, программы технического обучения или обучения по продажам и тд.
Более того, появиться рейтинг партнёрского сообщества по предоставляемым сервисам и появиться возможность самому выставлять оценку, появиться возможность указывать на моменты, которые стоит изменить. В общем, всё то, что обычно уже есть в аналогичных сообществах.
2.       Улучшения с последнего партнерского саммита в Мае этого года
На этом слайде компания SAS показывает в каких направлениях улучшилась и продолжает улучаться поддержка партнёров.
3.       Изменения в архитектуре ПО, включая SAS 9.4 Maintenance Release2
Далее, по пунктам из слайда.
В области SAS on HADOOP:
На мой взгляд, в работе с SAS on HADOOP самое важное то, что теперь можно использовать навыки SAS программирования для работы c HADOOP. Об этом ранее уже писал Николай.
В области High Performance Analytics произошло несколько улучшений в следующих областях:
·         масштабируемость данных (улучшенный DrillDown),
·         скорость принятия решений,
·         уменьшение стоимости лицензирования (за счёт opensource),
·         жизненный цикл (lifecycle), слайд ниже относится к этому вопросу
Улучшение в области визуализации данных:
·         Как для IT, так и для бизнес пользователей
·         Аналитики (Visual Analytics, Visual Statistics и тд)
·         Отчётность для мобильных решений и MS Office
·         SAS Studio(веб клиент для программистов SAS, о котором ранее упоминал Николай)
Улучшения в управлении данными:
Под Batch and Real Time понимается появления Event Streaming processing. На мой взгляд, данное программное обеспечение сегодня в тренде и востребовано. Тем не менее, аналоги есть у всех ведущих вендоров (например, CEP у IBM).
Для Data Quality и Integration были разработаны новые алгоритмы обработки данных. 
Чуть ниже будет слайд дорожной карты, который немного даст понимания в области управления данными.
Блок Customer Intelligence у SAS, на мой взгляд, и так занимает лидирующую позицию среди вендоров, но компания не останавливается и продолжает развиваться. Ниже на слайде 3 квадранта Гартнера, которые описывают понимание, как клиенты могут пользоваться управлениями маркетинговыми кампаниями и возможными маркетинговыми операциями.
На следующем слайде основные направления развития CI:
В области Fraud and Security наблюдается самый большой рост среди остальных продуктов компании SAS. Слайд ниже описывает структуру решения:
Forrester высоко оценил это направление в прошлом году:
4.       Обзор основных элементов дорожной карты
Ожидаемый нами слайд дорожной карты на ближайшие кварталы:
В самом вебинаре вы найдёте много подробностей, не изложенных в этой статье. На мой взгляд, его стоит посмотреть лично, хотя бы для практики английского языка =)
На этом всё!

Особенности работы в SAS EGRC.

Всем привет.

Ниже речь пойдет о практическом опыте работы с продуктом SAS Enterprise GRC.

Сразу скажу опыт не мой. Данную информацию предоставил Дмитрий — читатель нашего блога, который довольно плотно работал с данным продуктом.

SAS Enterprise GRC является веб-приложением, автоматизирующим управлениерисками и соответствием данных. SAS Enterprise GRC состоит из Web application сервера (в новой версии он стал встроенным), SAS Enterprise GRC Administrative Tools, SAS Enterprise GRC Server, и Web Help. В нашем проекте он использовался для оценки операционных рисков вкупе с модулем SAS OpRisk VaR, который предназначен для моделирования операционного VaR (количественной оценки риска с помощью подходов, основанных на распределении потерь), а также расчета регулятивного капитала продвинутым методом (AMA).
Сам модуль SAS EGRC предназначен для ввода и обработки информации по ведению реестров рисков и контролей и их экспертной оценке, управлению инцидентами, в т.ч. сбору данных о реализовавшихся потерях, ключевым индикаторам рисков, сценарной оценке рисков, управлению политиками, тестированию регулярных процедур контроля за рисками, проведению риск-аудита, корректирующим мероприятиям и планам действий.
Выбранная система представляет собой конструктор, который нужно настроить под требования Банка. Помимо модуля сбора данных о фактически понесенных потерях, в системе есть также модуль по оценке потенциальных рисков, или модуль самооценки.
Интерфейс системы не самый дружелюбный. В нём много избыточной информации, которую можно убрать. Главный плюс системы в том, что она хорошо масштабируема. Она работает через тонкий клиент, и к ней достаточно легко подключать пользователей, а также система предоставляет единый шаблон оценки и унифицированный перечень рисков. Минус — в том, что она не всегда достаточно гибкая с точки зрения глобальных настроек. Например, когда нужно быстро скорректировать информацию по большому количеству инцидентов или обновить профили пользователей (возможно в версии 5.1 будут внесены обновления).
Метаданные контролировались через Management Console, модуль отчетности был реализован на основе Information Delivery Portal (IDP) вкупе с Web Report Studio (WRS), а также надстройки Add-inдля пользователей Microsoft Office. Минус интеграции SAS EGRC с модулем WRS состоял в том, что в отчетах в наименовании объектов используется короткий дефис, а EGRC длинный. Из-за этого при простом копировании в поле поиска ничего не будет найдено, нужно исправлять этот дефис.

Для начала работы с EGRC пользователю достаточно открыть стартовую страницу через браузер.




На первой вкладке «Начало» представлено описание задач пользователя системы, которое позволяет быстро перейти к необходимым объектам. В свою очередь остальные вкладки представляют описанные выше основные блоки SAS EGRC: «Управление инцидентами», «Реестр и самооценка рисков», «Обобщения и действия», «Сценарии» и «КИР» (скрытые для данного пользователя).
Под управлением инцидентами понимается как процесс регистрации событий, связанных с рисками, так и учета объектов, связанных с этими событиями, такими как финансовые и нефинансовые последствия, прямые и страховые погашения, аллокации, причины и несработавшие контрольные процедуры.
Для каждого объекта определен свой набор классификаторов, по которым можно идентифицировать экземпляры этого объекта; часть этого набора – обязательные для указания классификаторы (отмечены в интерфейсе знаком «*»). Для изменения набора классификаторов объекта необходимо внести соответствующие изменения в файл dimensionality.xml, расположенный в репозитарии WebDAV в следующем каталоге: sasdav/Products/SASEnterpriseGRC/EnterpriseGRCMidTier4.3/Config. Также предусмотрена возможность связывать между собой элементы классификаторов. Для этого необходимо настроить мэппинги между требующими связи классификаторами.
Администратор имеет возможность вносить изменения в конфигурационные файлы с помощью утилиты SAS DAVTree. После внесения изменений в файл необходимо произвести рестарт application серверов.

В интерфейсе предусмотрена возможность фильтрации экземпляров объекта по любым из указанного набора классификаторам.



Сами классификаторы представлены в виде справочника, который можно редактировать.
Единственную трудность составляет разделение и объединение элементов классификатора. Эта операция состоит из 2-х этапов: 1) создание подготовительного xml-файла для объединения/разделения элементов классификатора; 2) запуск подготовленных файлов с помощью команды batchRun (SAS Enterprise GRC administrative tools). Это очень неудобно, т.к. для каждого элемента нужно создавать такой xml-файл.
1) Заполнив краткую форму инцидента в интерфейсе, 2) Путем пакетной загрузки данных (файл Excel) по инциденту с помощью соответствующего загрузчика. Дальнейшие действия с этим объектом могут быть описаны при помощи workflow (изменение статуса от «создан» до «утвержден»), создаваемых в SAS Workflow Studio.

SAS Workflow Studio представляет собой приложение для создания или редактирования  XML-шаблонов, моделирующих бизнес-процессы. К сожалению, не все бизнес-процессы системы можно поменять с помощью этих XML-файлов (например, связанные с КИР). Корректировка бизнес-процесса состоит из следующих шагов: создать шаблон для бизнес-процесса; загрузить шаблон в систему; в случае, если у нового шаблона новое название, то нужно в Management Console поменять название используемого шаблона для нужного бизнес процесса. Например, при помощи workflow можно задать порог суммы в инциденте, после которого создастся почтовое уведомление, ведь в системе можно настроить синхронизацию и интеграцию с почтовым сервером.

Параметры настройки прописываются в SAS Management ConsoleConfiguration Manager SAS Application InfrastructurePropertiesAdvanced. Установить тип уведомлений для почтовой рассылки следует в SAS Management ConsoleConfiguration ManagerSAS Application Infrastructure PropertiesSettingsAlert Notification Type E-Mail and alerts portlet.

Затем на сервере Mid Tier установить в application сервере используемый SMTPсервер. Подключение к серверу Exchange происходит по протоколу SMTP без авторизации. Для этого на стороне почтового сервера Exchange должны быть прописаны адреса серверов SAS Compute, SAS Meta Data и SAS Mid-Tier.

SAS EGRCпредоставляет возможность выгружать записи, относящиеся к некоторому объекту системы, в формате Excel-файла (опять же минус, данная версия 4.3 не понимает новых форматов, только .xls 97-2003).

Приложение поддерживает возможность создания пользовательских (кастомных) полей. Пользовательские поля поддерживают типы Boolean, Number, String, Single Value Option. Нужно загрузить их сначала в базу данных, затем присвоить наименования кастомным полям и значениям кастомных выпадающих списков в конфигурационных файлах (customMessages_ru.propertiesдля поля и named_list_options_ru.propertiesдля выпадающих списков).
Для кастомного поля создаются метки, которые прописываются в соответствующих xml-файлах CPB-форм. Custom Page Builder (CPB) позволяет изменять общую структуру отдельных экранов SAS Enterprise GRC путем редактирования XML-файлов экранных определений. Загрузка этих файлов проводится через пункт меню «Администрирование -> Настройка свойств страниц»

Часть свойств интерфейса определяется значениями параметров, прописанных в одном из конфигурационных файлов – configdata.properties,расположенном в репозитарии WebDAV в следующем каталоге: sasdav/Products/SASEnterpriseGRC/EnterpriseGRCMidTier4.3/Config.

Отображаемый набор столбцов таблиц интерфейса настраивается файлами вида *Customizations.xml, которые находятся в каталоге sasdav/Products/SASEnterpriseGRC/EnterpriseGRCMidTier4.3/Config/Customizations.Каждой таблице соответствует отдельный файл. Процесс настройки видимости столбцов состоит из выгрузки файлов из WebDAV и последующей загрузке с очисткой кэша.


Для увеличения производительности системы посредством уменьшения запросов к базе данных SAS Enterprise GRC кэширует некоторые данные. Администратор может использовать параметр Performance в SAS Management ConsoleConfiguration Manager для подбора размера кэш и времени кэширования объектов.



Уже вышел SAS Visual Analytics 7.1, а также EG 7.1

Всем привет!

Вчера открыл свой IPad, надо сказать делаю я это крайне редко, и обнаружил, что появилось обновление программы SASBI аж еще 9 октября. Таким образом я узнал о выпуске новой версии SAS VA 7.1

К сожалению в доступе этой версии пока у меня нет, поэтому все нововведения тестировать и показывать будем позже (как говориться когда руки дойдут).

Все нововведения этой версии можно посмотреть на самом сайте sas.

Могу лишь сказать, что наконец-то добавили долгожданное архивирование данных в памяти (но тут тоже есть подковырки — если этим пользоваться, то придется тратить ресурсы на декомпрессию и вроде как будет чуть медленнее).

Надо сказать, что такой скорости выходов новых версий я еще не видел. Особенно не позавидуешь клиентам — т.к. они только приспособятся к одной версии — а уже нужно менять и переходить на более новую, а это не всегда просто.

Также для меня стало открытием, что помимо SAS VA 7.1 вышел еще и всеми любимый новый клиент SAS Enterprise Guide 7.1.

Честно говоря также еще не тестировал и работаю пока в EG 6.1, который периодически беспричинно вылетает (закрывается). Но все равно мне нравиться.

Частично что нового и хорошего появилось в SAS EG 7.1 можно почитать здесь.

Из описанных новшество понравилось «умная подсветка» — это когда выделение определенного текста подсвечивается везде (так сделано в Notepad++) — достаточно удобно и очень не хватало раньше.

В общем всех с новшествами, а когда мы на них перейдем — еще большой вопрос :).

С уважением,
Николай.

Что нового в 9.4 с точки зрения администрирования и установки SAS.


SAS версии 9.4, несмотря на то, что мы его считаем «новым», он вышел в июле 2013 года, он до сих пор мало где используется. Я подозреваю, что те, кто используют более старые версии SAS попросту боятся переходить на последнюю версию в силу ряда достаточно понятных причин. Это и сложно, это и затратно, а зачастую и очень трудоёмко.
Давайте вспомним, чем же так хороша версия 9.4. В книге Whats New in SAS 9.4 огромное количество информации, 140 страниц. Действительно, появилось огромное количество новшеств, которые могут перевесить в пользу перехода на версию 9.4 на чаше весов.

Попробую указать самые интересные нововведения с точки зрения внедрения,  администрирования и поддержки:
1)      Появился тонкий клиент Environment Manager(EM), который вполне способен заменить в будущем Management Console. EM позволяет осуществлять администрирование и мониторинг через веб интерфейс и, следовательно, не требует установки на компьютере пользователя.

2)      Большинствосерверов Web Application (Jboss, WebLogic, WebSphere) для Mid-Tier, которые ранее требовались приустановке SAS, теперь всезаменены на SAS Web Application Server. Как заявляют в компании, достаточно SAS специалистов поддержания нового сервера. Тем не менее, для внедрения и разработки одних навыков SAS будет недостаточно, так как этот сервер построен на методологии Spring Web Services. Тем не менее, этот шаг является «прорывом», так как значительно уменьшает количество проблем связанных с совместимостью, которые присутствовали в предыдущих версиях.
3)      Самое интересное, на мой взгляд, это уровень работоспособности и отказоустойчивости многократно улучшен в связи с возможностью установки более одного сервера метаданных. Другими словами, теперь возможность разместить как сервера метаданных, так и MidTier по кластерам. Таким образом, в случае поломки одного из серверов, служба продолжит работать.
Данная статья как бы калька другой статьи, которую можно прочитать по этой ссылке.

Конкурс по анализу данных (с использованием SAS University Edition)

Всем привет!

Спасибо Роману Волынец за предоставленную ссылку в группе Профессионалы SAS.

Описание задачи взято с ссылки ниже:

Предлагается решить задачу коллекторского скоринга.
Коллекторский скоринг – это вид скоринга, применяемый для взаимодействия с клиентами, отказывающимися от исполнения условий кредитного договора, т.е. отказываются погашать задолженность. Скоринг в этом случае необходим для определения приоритетности действий служащих коллекторского бюро при работе по возвращению “плохого” кредита.


Банк – организация, выдающая кредиты.

Коллекторское бюро (агентство) – организация, предоставляющая услуги по возврату просроченной задолженности.

Просроченная задолженность (просрочка) – не оплаченная в срок задолженность по основному долгу кредитного договора.

Набор предоставленных данных, аналогичен набору, предоставляемому банком коллекторскому бюро и разбит на два: тренировочный (с известным для решателей откликом) и тестовый с неизвестным откликом.

Данные
Тренировочная выборка содержит информацию о банковских займах, проданных коллекторскому агентству.  Для каждого ID займа приведены его характеристики, характеристики просрочки по займу, а также информация о заемщике. Последний столбец содержит целевую переменную (1 – заемщик производит выплаты по долгу, 0 – заемщик не производит выплаты по долгу)
По заданному тренировочному набору данных (обучающей выборке) необходимо разработать алгоритм, который для каждого ID займа из тестовой выборки позволит спрогнозировать вероятность того, что заемщик будет производить выплаты по долгу.

Обязательные требования к алгоритму:
Aлгоритм должен работать таким образом, чтобы получая на вход тренировочный и тестовый наборы данных в формате SAS, строилась модель прогнозирования вероятности возврата «плохого» долга, построенная модель должна применяться к тестовой выборке и результат записываться в файл Results в формате SAS, содержащем 2 колонки: ID и Prob,

  • где ID идентификатор заемщика,
  • Prob – вероятность возврата долга.

Допустимой средой разработки является исключительно продукт SAS University Edition, который можно установить бесплатно, скачав по ссылке.
Обязательные требования к выполнению работы:

  • ​​Единственным доступным языком программирования является SAS Base (дополнительно участник может предоставить вариант на SAS IML)
  • Единственной доступной для реализации модели библиотекой является SAS STAT (библиотека методов статистического анализа SAS)
  • Использование других библиотек и инструментов, в том числе, подключаемых в SAS (таких как R) или поставляемых с другими продуктами SAS — недопустимо
  • Использование внешних источников данных (например, находящейся в свободном доступе информации об экономическом состоянии регионов) допустимо, но должно явно указываться в описании алгоритма и не нарушать авторских и других прав обладателей информации.

http://algomost.com/ru/tasks/sas-collection-scoring

Удачи тем, кто решит поучаствовать в этом конкурсе!