ответики


Статистическая обработка данных и прогнозирование
Функции, реализующие статистические методы обработки и анализа данных, в Excel реализованы в виде специального программного расширения - надстройки Пакет анализа, которая входит в поставку данного программного продукта и может устанавливаться (или не устанавливаться) по желанию пользователя.Установка надстройки Пакет анализа производится точно так же, как и установки прочих надстроек, то есть через меню Сервис > Надстройки, после чего в диалоговом окне Надстройки необходимо пометить пункт Пакет анализа и нажать кнопку ОК (рис. 6.16).

Рис. Установка пакета анализа
Если процесс установки Завершается успешно, то в меню Сервис появляется еще один пункт - Анализ данных (рис. 6.17), а также при создании формул становится доступной новая группа функций - статистические.

Рис. Окно Анализ данных, вызываемое из меню Сервис > Анализ данных
Проблема изучения взаимосвязей различного рода показателей является одной из важнейших в экономическом анализе. В конечном счете, основное содержание любой экономической политики может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной тем или иным образом информации об их взаимовлиянии.Целью статистического исследования является обнаружение и исследование соотношений между статистическими (экономическими) данными и их использование для изучения, прогнозирования и принятия решений.Любые экономические данные представляют собой количественные характеристики каких-либо экономических объектов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Стохастическая природа экономических данных обусловливает необходимость применения специальных статистических методов для их анализа и обработки.Поэтому фундаментальными понятием статистического анализа являются понятия вероятности и случайной величины.Конечно, Excel не предназначен для комплексного статистического анализа и обработки данных (в отличие от специального статистического программного обеспечения, такого как STATISTICA, Eviews, TSP, SPSS, Microfit и др.). Однако и на базе электронных таблиц можно провести некоторую статистическую обработку данных. В частности, в рамках Excel с помощью команд, доступных из окна Анализ данных (рис. 6.17), можно провести:- описательный статистический анализ (Описательная статистика);- ранжирование данных (Ранг и персентиль);- графический анализ данных (Гистограмма);- прогнозирование данных (Скользящее среднее, Экспоненциальное сглаживание);- регрессионный анализ (Регрессия) и др.Термин "регрессия" широко применяется в научной литературе для обозначения так называемой статистической зависимости между двумя (несколькими) сериями значений каких-либо величин. Определение "статистическая" предполагает, что рассматриваемая зависимость реализуется как некоторая общая тенденция, от которой возможны случайные отклонения в ту или иную сторону.Практические методы определения параметров регрессии (или, как еще говорят, регрессионного анализа) базируются на достаточно сложном математическом аппарате, составляющем предмет таких дисциплин, как математическая статистика, многомерный статистический анализ и др.В табл. 6.2 приведены статистические функции, позволяющие пользователю реализовывать операции регрессионного анализа (выявления зависимостей между рядами данных) непосредственно на рабочем листе электронной таблицы.Таблица Статистические функции для регрессионного анализа
Функция Назначение функции и ее аргументы Тип
ЛИНЕЙН Определяет параметры линейного тренда для заданного массиваЛИНЕЙН(знач.У; знач. X; констанста; стат.) Встроенная
ТЕНДЕНЦИЯ Определяет предсказанные значения в соответствии с линейным трендом для заданного массива (метод наименьших квадратов)ТЕНДЕНЦИЯ(знач.У; знач. X; новые знач.Х; константа;) Встроенная
ПРЕДСКАЗ Определяет предсказанное значение функции в заданной точке на основе линейной регрессииПРЕДСКАЗ(Х; знач.У; знач. X) Встроенная
НАКЛОН Определяет коэффициент для независимой переменной в уравнении парной регрессииНАКЛОН(знач.У; знач. X) Встроенная
ОТРЕЗОК Определяет отрезок, отсекаемый на оси ординат линией линейной регрессииОТРЕЗОК(знач.У; знач. X) Встроенная
КВПИРСОН Определяет квадрат коэффициента корреляции ПирсонаКВПИРСОН(знач.У; знач. X) Встроенная
ПИРСОН Определяет коэффициент корреляции Пирсона (степень линейной зависимости между двумя множествами данных)ПИРСОН(массив 1 ; массив 2) Встроенная
СТОШУХ Определяет стандартную ошибку предсказанных значений У для каждого XСТОШУХ(знач.У; знач. X) Встроенная
РОСТ Аппроксимирует данные экспоненциальной кривой РОСТ(знач.У; знач. X; новые знач.Х; константа;) Встроенная
Перечисленные функции имеют очень широкий спектр экономических приложений. Например, в качестве иллюстрации техники использования статистических функций Excel рассмотрим задачу построения парной линейной регрессии между доходностью отдельно взятой акции и доходностью рыночного портфеля.Сформулированная проблема основывается на подходе к описанию поведения финансового рынка с помощью так называемой модели САРМ. Не вдаваясь в подробности ее описания, заметим, что одним из базовых ее допущений является предпосылка о возможности описания связи между доходностью акции и доходностью рыночного портфеля с помощью уравнения.
CapitalAssetPricingModel (Модель оценки финансовых активов) (CAPM) - экономическая модель для оценки акций, ценных бумаг, деривативов и/или активов путем соотношения риска и ожидаемого дохода. CAPM основывается на той идее, что инвесторы требуют дополнительный ожидаемый доход (рисковую премию), если их просят взять на себя дополнительный риск.
Корреляционный анализ занимается степенью связи между двумя переменными, x и y. 
Сначала предполагаем, что как x, так и y количественные, например рост и масса тела. Предположим, пара величин (x, у) измерена у каждого из n объектов в выборке. 
Мы можем отметить точку, соответствующую паре величин каждого объекта, на двумерном графике рассеяния точек. 
Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Размещая точки для всех n объектов, получают график рассеяния точек, который говорит о соотношении между этими двумя переменными.
Коэффициент корреляции Пирсона
Соотношение х и у линейное, если прямая линия, проведенная через центральную часть скопления точек, дает наиболее подходящую аппроксимацию наблюдаемого соотношения. Можно измерить, как близко находятся наблюдения к прямой линии, которая лучше всего описывает их линейное соотношение путем вычисления коэффициента корреляции Пирсона, обычно называемого просто коэффициентом корреляции. 
Его истинная величина в популяции (генеральный коэффициент корреляции) (греческая буква «ро») оценивается в выборке как r (выборочный коэффициент корреляции), которую обычно получают в результатах компьютерного расчета. 
Пусть (x1. y1), (x2, y2),…,(xn, yn) - выборка из n наблюдений пары переменных (X, Y).
Выборочный коэффициент корреляции r определяется как 
,  
где ,  - выборочные средние, определяющиеся следующим образом:

В данном узле рассчитывается корреляционная матрица. Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов.
Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.
При выборе метода расчета Максимум взаимокорреляционной функции будет вычислен максимум из коэффициентов корреляции двух процессов, рассчитанных при всевозможных временных сдвигах. Следует применять, если необходимо узнать линейную зависимость между двумя процессами или частями процессов происходящих с определённым временным лагом. Расчет коэффициента корреляции Пирсона происходит с использованием алгоритма БПФ. Здесь можно выделить два шага: быстрое преобразование Фурье и Расчет коэффициента корреляции.
Факторный анализ - это методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя. Факторы в результате анализа получают количественную и качественную оценку. Каждый показатель может в свою очередь выступать и в роли факторного, и результативного.
Различают следующие противоположные типы факторного анализа:
детерминированный и стохастический;
прямой и обратный;
одноступенчатый и многоступенчатый;
статический и динамический;
ретроспективный (исторический) и перспективный (прогнозный).
Факторный анализ может быть одноуровневым и многоуровневым.
Одноуровневый факторный анализ - используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, y = ax+b.
Многоуровневый, многоступенчатый факторный анализ - проводит детализацию факторов а и b на составные элементы с целью изучения их сущности. Детализация факторов может быть продолжена. В таком случае изучается влияние факторов различных уровней соподчиненности.
Статический факторный анализ - применяется при изучении влияния факторов на результативные показатели на соответствующую дату.
Динамический факторный анализ - представляет собой методику исследования причинно-следственных связей в динамике.
Ретроспективный факторный анализ - изучает причины изменения результатов хозяйственной деятельности за прошлые периоды.
Перспективный факторный анализ - исследует поведение факторов и результативных показателей в перспективе.
Основные задачи факторного анализа:
Выявление, поиск факторов.
Отбор факторов для анализа исследуемых показателей.
Классификация и систематизация их с целью обеспечения системного подхода.
Моделирование взаимосвязей между результативными и факторными показателями.
Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
Работа с факторной моделью (практическое ее использование для управления экономическими процессами).
Факторный анализ - это один из способов снижения размерности, то есть выделения во всей совокупности признаков тех, которые действительно влияют на изменение зависимой переменной. Или группировки сходно влияющих на изменение зависимой переменной признаков. Или группировки просто сходно изменяющихся признаков. Предполагается, что наблюдаемые переменные являются лишь линейной комбинацией неких ненаблюдаемых факторов. Некоторые из этих факторов являются общими для нескольких переменных, некоторые характерно проявляют себя только в одной. Те, что проявляют себя только в одной, очевидно, ортогональны друг другу и не вносят вклад к ковариацию переменных, а общие - как раз и вносят эту ковариацию. Задачей факторного анализа является как раз восстановление исходной факторной структуры исходя из наблюдаемой структуры ковариации переменных, несмотря на случайные ошибки ковариации, неизбежно возникающие в процессе снятия наблюдения.
Коэффициент взаимосвязи между некоторой переменной и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой (Factorload) данной переменной по данному общему фактору. Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору.
Подготовка к факторному анализу
При подготовке к факторному анализу часто (некоторые методы этого не требуют, но большая часть - требует) составляют ковариационные и корреляционные матрицы. Это матрицы, составленные из ковариации и корреляций векторов-атрибутов (строки и столбцы - атрибуты, пересечение - ковариация/корреляция).
Ковариация двух векторов:

 математическое ожидание 
Корреляция двух векторов:
,
 - дисперсия.
Обратите внимание, что в этом случае корреляция и ковариация двух векторов - числа, так как считаются через матожидание вектора, а матожидание вектора - число.
Таким образом, мы переходим от матрицы, составленной из объектов (которые могут быть и не математическими), к матрице, оперирующей уже исключительно математическими понятиями, и абстрагируемся от объектов, уделяя внимания только атрибутам.
Нахождение первичной структуры факторов
Метод главных компонент
Метод главных компонент стремится выделить оси, вдоль которых количество информации максимально, и перейти к ним от исходной системы координат. При этом некоторое количество информации может теряться, но зато сокращается размерность.
Этот метод проходит практически через весь факторный анализ, и может меняться путем подачи на вход разных матриц, но суть его остается неизменной.
Основной математический метод получения главных осей - нахождение собственных чисел и собственных векторов ковариационной матрицы таких, что:
RV = λV, где
λ - собственное число R, R - матрица ковариации, V - собственный вектор R. Тогда :RV − λV = 0
V(R − λE) = 0
и решение есть когда:
| R − λE | = 0,
где R - матрица ковариации, λ - собственное число R, E - единичная матрица. Затем считаем этот определитель для матрицы соответствующей размерности.
V находим, подставляя собственные числа по очереди вV(R − λE) = 0
и решая соответствующие системы уравнений.
Сумма собственных чисел равна числу переменных, произведение - детерминанту корелляционной матрицы. Собственное число представляет собой дисперсию оси, наибольшее - первой и далее по убыванию до наименьшего - количество информации вдоль последней оси. Доля дисперсии, приходящаяся на данную компоненту, считается отсюда легко: надо разделить собственное число на число переменных m.
Коэффициенты нагрузок для главных компонент получаются делением коэффициентов собственных векторов на квадратный корень соответствующих собственных чисел.
Алгоритм NIPALS вычисления главных компонент
На практике чаще всего для определения главных компонент используют итерационные методы, к примеру, NIPALS:
0. Задается 0 < ε1 < 1 - критерий окончания поиска главного компонента, и 0 < ε2 < 1 - критерий окончания поиска главных компонентов, исходная отцентрированная матрица X, i=1 - номер главной компоненты.
1. Берется  - вектор-столбец, k - шаг алгоритма, j - любой столбец (просто чтобы было с чего начинать апроксимизацию).
2. Вектор Tk транспонируется.
3. Считается .
4. Pk нормируется 
5. Считается новый 
6. Если  то  и Pk - вектора весов и нагрузок соответственно для i-ой главной компоненты. Если нет, то  и иди на 2.
7.  .
8. Если | X | < ε, то стоп - найдены все основные компоненты, нас удовлетворяющие. Иначе i++. Иди на 1.
Использование методов идентификации
Идентификацией называется нахождение оптимальной в некотором смысле модели, построенной по результатам наблюдений над входными и выходными переменными объекта. Задачи идентификации Задачей идентификации называется обратная задача системного синтеза.
AM = f (U Y, ) Задача идентификации Среди задач идентификации выделяют два типа: 1. Структурная идентификация (в широком смысле слова); 2. Параметрическая идентификация (идентификация в узком смысле слова).
Структурная идентификация
Подразумевает построение модели типа «черный ящик», т.е. об объекте мы ничего не знаем. Главная задача: определение структуры модели. Рекомендации по решению задач структурной идентификации: 1. Определить тип (класс) моделей. а) Начинать построение модели с физической модели (по известным законам физики, не забывая о цели построения модели); б) Начинать с самых простых моделей (линейная, непрерывная, одномерная и т.д.); в) Постараться преобразовать модель к виду линейной регрессии:
Определение размера или порядка модели (определение количества внутренних переменных модели). Определение ковариационных (зависимость от шумовых характеристик) и корреляционных (взаимосвязь между определенными двумя внутренними переменными) матриц. На сегодняшний момент существует несколько методов исследования ковариационных и корреляционных матриц, которые позволяют определить недостаточность или избыточность модели. 3. Параметрическая идентификация (способ параметризации модели)
Методы в алгоритме идентификации: Текущие данные, Выбор класса модели, Выбор критерия согласия.
Использование методов прогнозированияМетод прогнозирования - это способ исследования объекта прогнозирования, направленный на разработку прогнозов.
Методика прогнозирования - это совокупность специальных приемов и правил разработки конкретных прогнозов.
Прием прогнозирования - это математическая или логическая операция, направленная на получение конкретных результатов в процессе разработки прогнозов.
Классификация методов прогнозирования осуществляется по трем основным признакам: 1) по степени формализации методов; 2) по общему принципу действия; 3) по способу получения прогнозной информации.
По степени формализации методы прогнозирования делятся на формализованные и интуитивные.
Формализованные методы используются в том случае, когда информация об объекте прогнозирования носит в основном количественный характер, а влияние различных факторов можно описать с помощью математических формул.
Интуитивные методы применяются тогда, когда информация количественного характера об объекте прогнозирования отсутствует или носит в основном качественный характер и влияние факторов невозможно описать математически.
В свою очередь эти две группы можно разделить по общему принципу деятельности и способу получения прогнозной информации. Формализованные методы подразделяются на методы экстраполяции и методы моделирования.
К методам экстраполяции относятся метод скользящей средней, метод экспоненциального сглаживания, метод наименьших квадратов, а к методам моделирования – методы информационного моделирования (патентный и публикационный), статистического моделирования, логического моделирования (прогнозной аналогии, «дерево целей»).
Интуитивные методы прогнозирования делятся на индивидуальные и коллективные экспертные оценки. Причем индивидуальные экспертные оценки основаны на обобщении мнений отдельных экспертов, выраженных независимо друг от друга. К ним относятся: метод интервью, метод анкетного опроса, аналитический метод, метод написания сценария. Коллективные экспертные оценки базируются на получении объединенной оценки от всей группы специалистов-экспертов, выработанной при непосредственном контакте. К таким методам относятся метод Дельфи, метод «мозговой атаки», метод экспертных комиссий.
В экономическом прогнозировании применяются два принципиально отличающихся друг от друга подхода – поисковый и нормативный.
Поисковый прогноз можно определить как условное продолжение в будущее наблюдаемых тенденций исследуемого явления или процесса, закономерности развития которых в прошлом и настоящем достаточно хорошо известны. Причем, если возможные организационные решения способны существенно видоизменить наметившиеся тенденции, от них следует абстрагироваться. Основная цель поискового прогноза состоит в том, чтобы выяснить, что может произойти, какие проблемы могут возникнуть при сохранении существующих тенденций развития.
Нормативный прогноз основан на экстраполяции от будущего к настоящему, т.е. на определении оптимального состояния изучаемого объекта на период прогнозирования с использованием средств целеполагания по заранее сформулированным критериям. При нормативном прогнозе сначала задается некоторая цель развития объекта прогнозирования, а затем определяется траектория движения прогнозируемого процесса или явления. Цель данного подхода – выявление альтернативных путей достижения оптимума.
Поисковый и нормативный прогнозы не взаимоисключают, а дополняют друг друга. Как правило, поисковый прогноз составляет первый этап разработки прогнозного исследования, на котором получается сравнительная оценка возможных вариантов развития. На втором этапе осуществляется разработка нормативного прогноза, который исходит из познанных общественных закономерностей, тенденций, потребностей развития, а также формулировка программы возможных путей, мер и условий для достижения поставленных целей с привлечением необходимых ресурсов и средств.
6. Применение метода PLS для анализа данных
7. Использование подходов когнитивности моделирования для работы с данными
Применение в моделировании и проектировании когнитивного (познавательного) подхода позволяет не только использовать шаблоны решенных ранее задач, но и производить изменения в процессе проектирования, используя в том числе знания и навыки из решения подобных задач, применяемых в других областях знаний. В данном случае модель изделия достаточно представить как параметризованную систему с входными и выходными данными. Основной акцент при этом делается не на знании и анализе имеющегося объема исходных данных и применении к нему операций моделирования и проектирования по заданному алгоритму, а на понимании физического смысла этих данных и понимании (познании) возможности вариантов их комбинирования с другими данными, напрямую не входящими в заданный диапазон входных и выходных условий.8. Использование возможностей сетей Кохонена для анализа данных
Сеть разработана ТойвоКохоненомв начале 1980-х гг. и принципиально отличается от рассмотренных высше сетей, поскольку использует неконтролируемое обучение и обучающее множество состоит лишь из значений входных переменных.
Сеть распознает кластеры в обучающих данных и распределяет данные по соответствующих кластерах. Если дальше сеть встречается с набором данных, непохожим ни на одним из известных образцов, она относит его к нового кластеру. Если в данных содержатся метки классов, то сеть способна решать задачи классификации.
Сеть Кохонена имеет всего два слоя: входной и выходной, ее называют самоорганизованной картой. Элементы карты располагаются в некотором пространстве - как правило двумерном.
3038331top
Рис. 4. Сеть КохоненаСеть Кохонена учится методом последовательных приближений. Начиная со случайным образом выбранного выходного расположения центров, алгоритм постепенно улучшается для кластеризации обучающих данных.
Основной итерационный алгоритм Кохонена последовательно проходит ряд эпох, на каждой эпохе обрабатывается один обучающий пример. Входные сигналы (векторы действительных чисел) последовательно предъявляются сети, желаемые выходные сигналы не определяются. После предъявления достаточного числа входных векторов, синаптические весы сети определяют кластеры. Весы организуются так, что топологически близкие узлы чувствительны к похожим входным сигналам.
Для реализации алгоритма необходимо определить меру соседства нейронов (окрестность нейрона-победителя). На рис. 6 показаны зоны топологического соседства нейронов на карте признаков в разные моменты времени. NEj(t) - множество нейронов, считающиеся соседями нейрона j в момент времени t. Зоны соседства уменьшаются с течением времени. 
 
Рис. 5. Зоны топологического соседства на карте признаков в разные моменты времени
Алгоритм функционуваннясетейКохоненаИнициализация сети. Весовым коэффициентам сети даются небольшие случайные значения. Общее число синаптических весов - M*N (см. рис. 4). Начальная зона соседства показана на рис. 5.
Предъявление сети нового входного сигнала.
Вычисление расстояния до всех нейронов сети:
Расстояния dj от входного сигнала до каждого нейрона j определяются по формуле:

где xi - i-ый элемент входного сигнала в момент времени t, wij(t) - вес связи от i-го элемента входного сигнала к нейрону j в момент времениt.
Выбор нейрона с наименьшим расстоянием:
Выбирается нейрон-победитель j*, для которого расстояние dj самое малое.
Настраивание весов нейрона j* и его соседей:
Делается настраивание весов для нейрона j* и всех нейронов из его окрестности NE. Новые значения весов:
wij(t+1)=wij(t)+r(t)(xi(t)-wij(t))
где r(t) - скорость обучения, которая уменьшается с течением времени (положительное число, меньше единицы).
Возвращение к шагу 2.
В алгоритме используется коэффициент скорости обучения, которое постепенно уменьшается, для тонкой коррекции на новой эпохе. В результате центр устанавливается в определенной позиции, которая удовлетворительным образом кластеризует примеры, для которых данный нейрон является победителем.
Свойство топологической упорядоченности достигается в алгоритме с помощью использования понятия окрестности. Окрестность - это несколько нейронов, окружающих нейрон-победитель. Соответственно скорости обучения, размер окрестности постепенно уменьшается, так, что сначала к нему принадлежит довольно большое число нейронов (возможно вся карта), на самых последних этапах окрестность становится нулевой и состоит лишь из нейрона-победителя. В алгоритме обучения коррекция применяется не только к нейрону-победителю, но и к всем нейронам из его текущей окрестности. В результате такого изменения окрестности, начальные довольно большие участки сети иммигрируют в сторону обучающих примеров.
Сеть формирует грубую структуру топологического порядка, при которой похожие примеры активируют группы нейронов, которые близко находятся на топологической карте. С каждой новой эпохой скорость обучения и размер окрестности уменьшаются, и внутри участков карты обнаруживаются более тонкие расхождения, что приводит к точному настраиванию каждого нейрона. Часто обучения умышленно разбивают на две фазы: более короткую, с большой скоростью обучения и больших окресностей, и более продолжительную с маленькой скоростью обучения и нулевыми или почти нулевыми окрестностями.
После того, как сеть научена распознаванию структуры данных, ее можно использовать как средство визуализации при анализе данных.
Области применения. Кластерный анализ, распознавание образов, классификация.
Недостатки. Сеть может быть использована для кластерного анализа только в том случае, если заранее известное число кластеров.
Преимущества. Сеть Кохонена способна функционировать в условиях препятствий, так как число кластеров фиксировано, весы модифицируются медленно, настраивание весов заканчивается после обучения.
Модификации. Одна из модификаций состоит в том, что к сети Кохонена прибавляется сеть MAXNET, что определяет нейрон с наименьшим расстоянием ко входному сигналу.
9. Использование возможностей нейронных сетей для анализа данных
Одним из эффективных и точных современных методов моделирования является моделирование с помощью нейронных сетей [4]. Идея нейронных сетей возникла в результате попыток смоделировать деятельность человеческо-го мозга. Мозг воспринимает воздействия, поступающие из внешней среды, и обучается на собственном опыте. Идея нейрона является обобщающей: она синтезирует биологические представления с математическими образами. Такого рода идеи на стыке мате-матики и биологии характерны для науки XX века.
Модель нейронной сети состоит из простых нейронов, которые объеди-нены в группы (слои). У сети есть некоторое количество входов и выходов, зависящее от условий задачи: X1, X2, X3, …, Xn – входные данные (факторы производственной среды); Y’1, Y’2, Y’3, …, Y’m – выходные данные (показатели производственного риска).
Пример модели нейронной сети показан на рис.
Самый важный и трудоёмкий процесс работы модели – это обучение. В модель, обучающуюся с учителем, на вход подаются статистические значе-ния независимых переменных (факторов производственной среды). Затем эти значения суммируются и поступают на нейроны первого слоя. Там они обраба-тываются при помощи функции активации, которая в свою очередь может быть как линейной так и нелинейной. На выходе получаются некоторые значения, вновь суммируемые и поступающие на вход нейронов следующего слоя. Обыч- но, в моделях нейронной сети имеются один и или два скрытых слоя (без учёта входного и выходного слоёв). Результирующий сигнал, полученный на выходе модели, сравнивается с фактическим значением зависимой переменой из выборки исходных данных. Затем вычисляется ошибка сети и оценивается её приемлемость. При больших значениях ошибки выполняется пересчет весовых коэффициентов модели по методу обратного распространения ошибок и происходит обучение нейрон- ной сети. Процедура обучения проходит в несколько итераций и после её оконча-ния сеть готова давать прогноз. Вышеизложенный алгоритм работы нейронной сети справедлив для решения многих слабо структурированных задач, нереша-емых прямыми аналитическими методами.
По сравнению с традиционными технологиями, нейронные сети имеют следующие достоинства: - универсальность – нейронные сети не зависят от свойств входных дан-ных, для них не существует требования к определенному типу распределения исходных данных, либо требования к линейности целевых функций; - простота – использование нейронных сетей не требует специальной подготовки, для практического применения нет необходимости глубоко вни-кать во внутренние механизмы работы сети, в отличие от статистических мето- дов, требующих фундаментальных знаний теории вероятностей и математиче- ской статистики; - не существует проблемы "проклятия размерности". Они способны моде-лировать зависимости в случае большого числа переменных; - ускоряют процесс нахождения зависимости за счет одновременной об- работки данных всеми нейронами.
Основными интересными на практике возможностями нейронных сетей являются следующие:
Гибкость структуры: можно различными способами комбинировать элементы нейросети (нейроны и связи между ними). За счёт этого на одной "элементной базе" и даже внутри "тела" одного нейрокомпьютера можно создавать совершенно разные вычислительные схемы, подбирать оптимальное для конкретной задачи число нейронов и слоёв сети.
Быстрые алгоритмы обучения нейронных сетей: нейросеть даже при сотнях входных сигналов и десятках-сотнях тысяч эталонных ситуаций может быть почти мгновенно обучена на обычном компьютере. Поэтому применение нейронных сетей возможно для решения широкого круга сложных задач прогноза, классификации и диагностики.
Возможность работы при наличии большого числа неинформативных, избыточных, шумовых входных сигналов − предварительного их отсева делать не нужно,  HYPERLINK "http://www.neuropro.ru/" нейросеть сама определит их малопригодность для решения задачи и может их явно отбросить.
Возможность работы со скоррелированными независимыми переменными, с разнотипной информацией (измеренной в непрерывнозначных, дискретнозначных, номинальных, булевых шкалах), что часто доставляет затруднение методам статистики.
Нейронная сеть одновременно может решать несколько задач на едином наборе входных сигналов − имея несколько выходов, прогнозировать значения нескольких показателей. Часто это помогает нейросети построить более адекватные или более универсальные "внутренние"-промежуточные концепции (т.к. требуется, чтобы все эти промежуточные расчёты были пригодны не для одной, а для нескольких задач сразу) и, вследствие этого, повысить точности решения этих задач по сравнению с решениями задач по-отдельности.
Алгоритмы обучения накладывают достаточно мало требований на структуру нейронной сети и свойства нейронов. Поэтому при наличии экспертных знаний или в случае специальных требований можно целенаправленно выбирать вид и свойства нейронов, собирать структуру нейронной сети вручную из отдельных элементов, и задавать для каждого из них нужные характеристики или ограничения.
Нейросеть может обучиться решению задачи, которую человек-эксперт решает недостаточно точно (или для которой вообще отсутствует эксперт). Обученная сеть может быть представлена в виде явного алгоритма решения задачи, например, в виде набора правил "если …, то …", и изучение этого алгоритма может позволить человеку получить новые знания.
Синтезированная (обученная) нейросеть обладает устойчивостью к отказам отдельных элементов (нейронов) и линий передачи информации в ней. За счёт того, что навык решения задачи "размазан" по сети, не происходит катастрофического падения точности решения при выходе из строя нескольких элементов системы. Можно применять и специальные методы для повышения отказоустойчивости. Это бывает востребованным при аппаратных реализациях сетей − для обеспечения построения надёжных систем из ненадёжных элементов.
Высокая потенциальная параллельность вычислений (например, одновременное параллельное функционирование нейронов некоторого слоя сети) позволяет эффективно задействовать возможности современной вычислительной техники (от использования SIMD-команд до многопоточности и многопроцессорности) − что ускоряет процессы нейромоделирования и/или позволяет использовать синтезированные модели для решения задач реального времени.
10. Взаимосвязь между корреляцией параметров и системой координат
Для графического представления корреляционной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определённого символа. Такой график называется диаграммой рассеяния.
Диаграмма рассеяния (также точечная диаграмма, англ. scatterplot) — математическая диаграмма, изображающая значения двух переменных в виде точек на декартовой плоскости.
На диаграмме рассеяния каждому наблюдению (или элементарной единице набора данных) соответствует точка, координаты которой (в декартовой системе координат) равны значениям двух каких-то параметров этого наблюдения. Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого — по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.
11. Многопараметрический регрессионный анализ
Регрессио́нный анализ — статистический метод исследования влияния одной или нескольких независимых переменных  на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция), а не причинно-следственные отношения.
Цели регрессионного анализа
Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимойРегрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Строго регрессионную зависимость можно определить следующим образом. Пусть  — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений  определено условное математическое ожидание (уравнение регрессии в общем виде),
то функция  называется регрессией величины  по величинам , а её график — линией регрессии  по , или уравнением регрессии.
Зависимость  от  проявляется в изменении средних значений  при изменении . Хотя при каждом фиксированном наборе значений  величина  остаётся случайной величиной с определённым распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение  при изменении , используется средняя величина дисперсии  при разных наборах значений  (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: , где  — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.
12. Интерполяция и экстраполяция данных
Интерполяция- точное прохождение искомой функции через имеющийся массив данных
Экстраполяция- улавливание тенденции об изменении значения, но при этом на участке, где имеются статистические данные допускается отклонение функции от данных статистик.
При использовании методов интерполяции на практике, для прогнозирования значения за пределами заданного интервала АВ малопригодны, в связи с тем, что поведение функции за пределами данного интервала может быть непредсказуемым. точность прогнозирования при использовании экстраполяционных подходов будет зависеть от количества имеющихся статистических данных, чем больше объем статистических данных, тем выше точность прогнозирования.
Работа экстраполяционных методов заключается в том, что необходимо выбрать вид функции и определить коэффициенты данной функции. для определения внешнего вида функции можно выдвинуть гипотезы на основе внешнего вида функции или из того соображения, что любая функция может быть описана рядом, то выдвигается гипотеза, которая после проверки на адекватность усложняется путем добавления высших степеней ряда. после выдвижения гипотезы о виде функции необходимо найти коэффициенты данной функции и проверить ее адекватность. Для поиска коэффициентов используется критерий согласия, который минимизирует отклонение между экспериментальными точками и значениями, полученными с использованием выдвинутой гипотезы.
I=I(F(xi)-yi) y= C0+C1x+C2x2+...+Cnxn
13. Методы вариационного анализа данных
Вариационный анализ (показатели вариации абсолют и относит.)Вариация – это различие индивидуальных значений признака внутри изучаемой совокупности.
Вариация бывает: случайная и систематическая.
1. Размах 2. Средне линейное отклонение 3. Дисперсия 4. Средне квадратическое отклонение
5. Коэффициент вариаций
Простейшим показателем вариаций является размах вариации. Это разность между максимальными и минимальными значениями признака.
Средне линейное отклонение – это среднее арифметическое из абсолютных индивидуальных отклонений значений от их средней.
Дисперсия это среднее арифметическое из квадрата отклонений индивидуальных значений от их средней арифметической.
Дисперсия практически применяется при расчете тесноты связей и при расчете ошибок выборочного наблюдения.  Корень квадратный из дисперсии даст величину среднеквадратического отклонения:
Среднеквадратическое отклонение применяется для характеристики степени колеблемости признака. Если необходимо сравнить две совокупности по разным признакам, то исчисляют показатель вариации или коэффициент вариации. Коэффициент вариации:
Коэффициент вариации позволяет сравнить степень варьирования признаков в вариационных рядах с разным уровнем средних. Вообще коэффициент вариации является мерилом надежности средней. Если коэффициент вариации V>40%, то надежность средней невелика. Достаточным является, если V<35%. Чем меньше коэффициент вариации, тем надежнее среднее.
Пакеты для работы с массивами данных
RapidMiner — среда для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса RapidMiner-а. Работает с файлами xls, csv, xml, db.
RapidMiner — открытый программный продукт, свободно распространяемый под лицензией GNU AGPLv3.
RapidMiner может работать и как отдельное приложение, и как «интеллектуальный движок», встраиваемый в другие приложения, включая коммерческие.
Функциональные возможности:
RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.
Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.
Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.
Имеется пошаговый учебник, включающий популярное введение в машинное обучение и интеллектуальный анализ данных.


Программа «NeuroPro 0.25» является свободно распространяемой версией программного продукта для работы с искусственными нейронными сетями.
Возможности программы:
Чтение, запись, редактирование, конвертирование файлов данных, представленных в форматах dbf
Создание слоистых нейронных сетей для решения задач прогнозирования и классификации:
Число слоев нейронов - до 10.
Число нейронов в слое - до 100. Число нейронов в слое может задаваться отдельно для каждого слоя нейронов.
Решение задач прогнозирования.
Нейросеть может иметь несколько выходных сигналов (решать одновременно несколько задач прогнозирования и классификации)
Обучение нейронной сети с применением одного из следующих методов градиентной оптимизации (градиент вычисляется по принципу двойственного функционирования):
Градиентный спуск.
Модифицированный ParTan-метод.
Метод сопряженных градиентов.
Квазиньютоновский BFGS-метод.
Тестирование нейронной сети, получение статистической информации о точности решения задачи.
Matlab и SimulinkMATLAB («Matrix Laboratory») — пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете. MATLAB работает на большинстве современных операционных систем, включая  HYPERLINK "https://ru.wikipedia.org/wiki/Linux" \o "Linux" Linux, HYPERLINK "https://ru.wikipedia.org/wiki/Mac_OS" \o "Mac OS"Mac OS, HYPERLINK "https://ru.wikipedia.org/wiki/Solaris" \o "Solaris"Solaris и Microsoft Windows.
Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования. Основной особенностью языка MATLAB являются его широкие возможности по работе с матрицами.
Наборы инструментов:
Цифровая обработка сигналов, изображений и данных
Системы управления
Финансовый анализ
Анализ и синтез географических карт, включая трёхмерные: Mapping Toolbox.
Сбор и анализ экспериментальных данных
Визуализация и представление данных
Средства разработки, позволяющие создавать независимые приложения из среды MATLAB.
Взаимодействие с внешними программными продуктами
Базы данных
Научные и математические пакеты
Нейронные сети
Нечёткая логика
Символьные вычисления
Помимо вышеперечисленных, существуют тысячи других наборов инструментов для MATLAB, написанных другими компаниями и энтузиастами.
Simulink – это графическая среда имитационного моделирования, позволяющая при помощи блок-диаграмм в виде направленных графов, строить динамические модели, включая дискретные, непрерывные и гибридные, нелинейные и разрывные системы. Интерактивная среда Simulink, позволяет использовать уже готовые библиотеки блоков для моделирования электросиловых, механических и гидравлических систем, а также применять развитый модельно-ориентированный подход при разработке систем управления, средств цифровой связи и устройств реального времени. Дополнительные пакеты расширения Simulink позволяют решать весь спектр задач от разработки концепции модели до тестирования, проверки, генерации кода и аппаратной реализации. Simulink интегрирован в среду MATLAB, что позволят использовать встроенные математические алгоритмы, мощные средства обработки данных и научную графику. 
Weka — библиотека алгоритмов машинного обучения для решения задач интеллектуального анализа данных (data mining). Система позволяет непосредственно применять алгоритмы к выборкам данных, а также вызывать алгоритмы из программ на языке Java. — среда для анализа знаний, разработанная в университете Вайкато (Новая Зеландия).
Пользователями Weka являются исследователи в области машинного обучения и прикладных наук. Она также широко используется в учебных целях.
Weka — это открытый программный продукт, развиваемый мировым научным сообществом, свободно распространяемый под лицензией GNU GPL. Weka предоставляет доступ к SQL-базам через Java Database и в качестве исходных данных может принимать результат SQL-запроса.
Explorer имеет несколько панелей.
Панель предобработки Preprocess panel позволяет импортировать данные из базы, CSV файла и т. д., и применять к ним алгоритмы фильтрации, например, переводить количественные признаки в дискретные, удалять объекты и признаки по заданному критерию.
Панель классификации Classify panel позволяет применять алгоритмы классификации и регрессии (в Weka они не различаются и называются classifiers) к выборке данных, оценивать предсказательную способность алгоритмов, визуализировать ошибочные предсказания, ROC-кривые, и сам алгоритм, если это возможно (в частности, решающие деревья).
Панель поиска ассоциативных правил Associate panel решает задачу выявления всех значимых взаимосвязей между признаками.
Панель кластеризации Cluster panel даёт доступ к алгоритму k-средних, EM-алгоритму для смеси гауссианов и другим.
Панель отбора признаков Select attributes panel даёт доступ к методам отбора признаков.
Панель визуализации Visualize строит матрицу графиков разброса (scatter plot matrix), позволяет выбирать и увеличивать графики, и т. д..SPSS Statistics («Statistical Package for the Social Sciences»)— компьютерная программа для статистической обработки данных, один из лидеров рынка в области коммерческих статистических продуктов, предназначенных для проведения прикладных исследований в социальных науках.
Возможности:
Ввод и хранение данных.
Возможность использования переменных разных типов.
Частотность признаков, таблицы, графики, таблицы сопряжённости, диаграммы.
Первичная описательная статистика.
Маркетинговые исследования
Анализ данных маркетинговых исследований
Основу программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.
Выходные данные представляются на отдельном листе (например в виде таблиц с заранее указанными столбцами). Так можно на основе анкетирования проанализировать данные, выявить тренды и т.д. Удобна в использовании в маркетинговых исследованиях
16. Возможности Rapid Miner для работы с данными.
С википедии:
RapidMiner (прежнее название YALE) — среда для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса RapidMiner-а.
RapidMiner — открытый программный продукт, свободно распространяемый под лицензией GNU AGPLv3.
RapidMiner может работать и как отдельное приложение, и как «интеллектуальный движок», встраиваемый в другие приложения, включая коммерческие.
Приложениями RapidMiner-а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи интеллектуального анализа данных, включая анализ текста (text mining), анализ мультимедиа (multimedia mining), анализ потоков данных (data stream mining).
Функциональные возможности
RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.
RapidMiner интегрирует в себя < операторы WEKA.
Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.
Концепция многоуровневого представления данных (multi-layered data view) обеспечивает эффективную и прозрачную работу с данными.
Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.
Имеется пошаговый учебник, включающий популярное введение в машинное обучение и интеллектуальный анализ данных.
Реализация и технологии
Программное обеспечение написано целиком на Java, поэтому работает во всех основных операционных системах.
Для представления экспериментов как суперпозиций операторов применяется язык XML.
Встраивание в другие приложения осуществляется посредством Java API.
Поддерживаются механизмы плагинов (plugin) и расширений (extension).
История
Начальная версия была разработана в 2001 году группой Искусственного Интеллекта технологического иниверситета в Дортмунде (Artificial Intelligence Unit of Dortmund University of Technology).
Начиная с 2004 года исходные коды RapidMiner-а доступны на  HYPERLINK "http://www.machinelearning.ru/wiki/index.php?title=SourceForge" \o "SourceForge" SourceForge.
Более подробно, более неформальным языком:Вот интерфейс. Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных. От вас — только понимание того, что вы делаете. Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.
Важные фичиХороший GUI. По сути, каждый функциональный блок собран в кубик. Ничего нового в подходе, но очень крутое исполнение. Обычно разница между классическим программированием и визуальным сильно бьёт по функциональности. Например, в SPSS Modeler всего 50 узлов, а тут целых 250 в базовой загрузке.
Есть хорошие инструменты подготовки данных. Обычно предполагается, что данные готовятся где-то ещё, но тут уже есть готовый ETL. В том же коммерческом SPSS возможностей для подготовки куда меньше.
Расширяемость. Есть старый добрый язык R. Полностью интегрированы операторы система WEKA. В общем, это не «детский сад» и не закрытый фреймворк. Надо будет спуститься на низкий уровень — без проблем.
Дружит с Hadoop (отдельное платное расширение с незамысловатым названием Radoop), причём как с чистым, так и с коммерческими реализациями. То есть когда вы решите молотить не табличку XLS с демо-набором данных, а боевую БД, да еще и при помощи модного ныне Apache Spark — всё сразу встанет как надо. Самое приятное — писать код не надо. Можно в майнере аналитиком написать скрипт через всё тот же GUI и отдать в обработку.
Архитектурно данные снаружи. Ставим платформу, грузим данные и начинаем смотреть, где какие кореляции, что можем спрогнозировать. Это и плюс, и минус, почему — ниже.
Кроме IDE есть ещё сервер. Rapid Miner Studio создаёт процессы, а на сервере их можно публиковать. Что-то типа планировщика — сервер знает, какой процесс когда запускать, с какой частой, что делать, если где-то что-то отвалилось, кто отвечает за каждый из процессов, кому как отдавать ресурсы, куда выгружать результаты. В общем, все-все-все современные плюшки.
А ещё сервер же умеет сразу строить минимальные отчёты. Можно выгружать не в XLS, а рисовать графику прямо там. Это нравится маркетингу маленьких компаний и удобно для небольших проектов. И, естественно, это очень недорого (даже в коммерческой версии) в сравнении с Моделлером и SAS. Но — сразу говорю — области применения у них разные.
Быстрое развитие. Только поднялся серьезный шум вокруг Apache Spark — через пару месяцев вышел релиз о поддержке базового функционала.
Минусы
Деньги. С 2011 года в опенсорс уходит предпоследняя версия продукта. С выходом новой предыдущая становится опенсорсной. Cтартер не позволяет строить процессы, обработка которых съест больше гигибайта оперативной памяти. Триал две недели.
Компания по Гартнеру не самая большая. Это плохо для внедрения и поддержки, потому что своими силами они это делать не могут. С другой стороны, всё это для больших бизнесов по политике компании отдаётся на интеграторов (то есть, как раз нам).
Авторитет компании пока не накоплен — внедрений не так много, молодая. За SAS ещё никого не увольняли, даже если бюджет в три раза выше, а здесь имя не на слуху.
Плохо с консалтингом, нет формализованных процессов техподдержки. Предполагается, что это всё делают, опять же, интеграторы. Мы и делаем, но с точки зрения большого бизнеса нельзя не упомянуть про эту особенность.
Не все вещи анализируются на сервере, в некоторых случаях платформа пробует агрегировать данные на локальной машине. Это плохо, когда модель требует всей базы, то есть когда нельзя взять и прогнать алгоритм на небольшом куске данных. Предполагается, что вы используете Hadoop или аналог для решения этой проблемы. Там всё есть.
Аналитика классических баз данных (то, что не Big Data по критерию многообразия) на шаг позади классических решений. То есть если вы захотите сделать предагрегацию перед выгрузкой in-database, то это нужно задать ручками явно, сам RapidMiner до этого не догадается.
ЗадачиИтак, перед нами чистое поле для решения любых задач. Наиболее частые в России, решающиеся такими инструментами — это:
Анализ транзакций (например, банковских) для противодействия мошенничеству.
Клиентская аналитика. Это самая горячая тема. Проще всего и выгоднее всего бывает выстроить модель оттока клиентов и отмечать флагом тех, кто к этому готов. Для рынка телекомов, например, переход абонента куда-то ещё — это трагедия, потому что людей больше не становится. Поэтому за флажок «клиент может убежать» они готовы платить реальные деньги.
Персональные рекомендации. Это любит розница — что кому предложить. Как раз тот случай, когда вы только-только не купили презервативы, а про вас уже запомнили, что через несколько месяцев нужно давать скидки на детское питание.
Прогнозирование поставок и продаж. При том, что есть готовые пакеты для этого, RapidMiner тупо дешевле. Не надо покупать Боинг, если у вас средний бизнес. И не надо покупать тот же JDA (он стоит как два Боинга). Нет, там всё очень круто и по возможностям, и по интеграции — но банально мало кто может позволить себе это купить.
Текстовая аналитика — о чём люди пишут. Например, анализ эмоционального оттенка отзывов или комментариев в автоматическом режиме. Это «50 жаловались на связь в Волгограде по улице Победы», «20 похвалили сервис», «Основная причина недовольства абонентов — частые разрывы соединения» и так далее.
Часто бывает нужна готовая интеграция на уровне базы и веб-сервисов. По сути, тут ничего не надо писать, задаётся только частота опроса, какие модель и процесс использовать, и кто потребитель. Для асинхронных или месячных отчётов ещё проще, есть даже подтягивания данных из Дропбокса для совсем малого бизнеса и готовая интеграция с Амазоновскими сервисами.
Коммерческий RapidMiner очень хорошо работает с большими данными. Exadata и Vertica — классические базы данных 2.0 или массивно-параллельные СУБД — поддерживаются «во все тяжкие».
RapidMiner vs IBM SPSS ModelerУ RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирают несколько возможных моделей с разными параметрами, выбирают несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RapidMiner.В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности. 
17. Возможности IBM Modeler (Clementine) для работы с данными.
Программное обеспечение IBM SPSS Modeler позволяет выявлять неочевидные закономерности в Ваших данных, строить надежные модели и оперативно внедрять полученные результаты в процессы принятия решений
BM SPSS Modeler — программное обеспечение для data mining, сочетающее в себе все необходимые технические и аналитические инструменты для ежедневной работы с данными, разработки и внедрения эффективных прогностических моделей. Задачи, решаемые при помощи IBM SPSS Modeler, очень разнообразны. Среди них:
Повышение эффективности политики удержания клиентов
Стимуляция кросс-продаж и повторных покупок
Сегментация клиентов
Минимизация кредитных рисков
Обнаружение и предотвращение мошенничества
IBM SPSS Modeler — естественный выбор программного обеспечения для data mining, давно сделанный многими организациями, чей успех тесно связан с глубоким пониманием и активным использованием данных о поведении клиентов и о своей деятельности.
Пользователями IBM SPSS Modeler являются организации финансовой, страховой, телекоммуникационной отраслей, предприятия розничного бизнеса и других сфер деятельности.
Ключевые факты
Экономический эффект от использования IBM SPSS Modeler в решении задач data mining обеспечивается несколькими составляющими:
простота доступа к данным, их обработки, агрегирования и изменения структуры;
быстрое построение и оценка качества моделей на основе использования эффективных статистических методов и алгоритмов машинного обучения;
оперативное внедрение построенных моделей в практику принятия решений;
быстрое получение отдачи от инвестиций в программное и аппаратное обеспечение за счет высокой производительности, интегрируемости и масштабируемости;
соответствие межотраслевому стандарту data mining CRISP-DM.
Скорость и эффективность процесса data miningПроцесс моделирования заключается в обнаружении в данных устойчивых закономерностей, которые могут быть использованы для принятия решений и управления взаимоотношениями с клиентами. Если перед этим данные нужно собрать из разных источников, объединить, подготовить и провести предварительный анализ, эти технические этапы остаются подчиненными основной цели. И достичь этой цели IBM SPSS Modeler позволяет максимально быстро.
МасштабируемостьВ IBM SPSS Modeler реализована трехуровневая архитектура обработки данных.
Задачи, не требующие больших объемов вычислений и доступа к крупным массивам данных, могут выполняться в IBM SPSS Modeler на локальных рабочих станциях.
По мере усложнения задач и увеличения времени ожидания результатов становится целесообразным перенос вычислений на сервер, где пользователи получают значительное преимущество в скорости вычислений за счет применения более мощной аппаратной части. Оптимальным является расположение сервера IBM SPSS Modeler и сервера базы данных на единой аппаратной платформе. Клиентская часть IBM SPSS Modeler при этом используется для подготовки стримов, запуска заданий на сервере, просмотра и анализа полученных результатов.
Следующий уровень производительности обеспечивается организацией основных вычислений непосредственно в базе данных за счет применения технологии SQL Pushback. Достигаемая скорость вычислений позволяет осуществлять аналитическую обработку очень больших информационных массивов.
Простой и удобный визуальный интерфейс
Вы сможете увидеть каждый шаг процесса, легко проверит свои идеи или предположения без необходимости программирования, а потом быстро внедрить результаты в точки принятия решений.
Экономия времени
Программное обеспечение IBM SPSS Modeler содержит множество инструментов и свойств, позволяющих быстро получить отдачу от инвестиций в аналитику. Автоматическое построение моделей, например, помогает быстро определить наилучшие модели и комбинировать прогнозы нескольких моделей для получения наиболее точных результатов.
Высокая производительность и масштабируемая архитектура
Выполняйте Data Mining в базах данных и скоринг миллионов записей в течение нескольких минут без предъявления каких-либо специальных требований к аппаратному обеспечению. Многопоточность, поддержка аппаратных кластеров, встроенные алгоритмы и другие свойства IBM SPSS Modeler позволяют экономить ресурсы и управлять затратами на инфраструктуру IT, обеспечивая в то же время быстрое получение результатов.
Clementine:
По русски нашёл описание лишь на rutracker.org:
Клементина - входит в число нескольких лучших продуктов для Data Mining. (Извлечение статистических закономерностей из массива данных - такой краткий перевод на русскийК преимуществам пакета относятся:- разработка программного комплекса на основе методологический подхода, именуемого CRISP (ясный, четкий). Эта методика широко используется во многих компаниях.- наличие огромного числа специальных статистических методов- возможность предварительной подготовки данных- наличие четкой документации по работе с программой!!!! (это есть далеко не у каждого производителя)- возможности расширения (подключения своих модулей при необходимости)- наличие поэтапно построенных обучающих примеров, позволяющих быстро начать пользование пакетом.Программа является качественным программным продуктом, защищенным авторскими правами и предлагается к раздаче с целью ознакомления.
Скриншот Clementine:

18. Возможности Smart PLS для работы с данными.
SmartPLSSmartPLS  является программное обеспечение с графическим пользовательским интерфейсом для дисперсия на основе моделирования структурными уравнениями (SEM) с помощью частичных наименьших квадратов (PLS) метод.[ 3 ] программное обеспечение может использоваться в эмпирических исследований, чтобы проанализировать собранные данные ( например, от обследований) и тест предположили отношения. Так он запрограммирован в HYPERLINK "https://en.wikipedia.org/wiki/Java_(programming_language)" \o "Java (язык программирования)"Java , он может быть выполнен и работать на HYPERLINK "https://en.wikipedia.org/wiki/Windows" \o "Windows"Windows, и  HYPERLINK "https://en.wikipedia.org/wiki/Mac_OS" \o "Mac OS" MacOS операционных систем.
Данные 
SmartPLS использует исходные данные. Импорт данных использует текст (.txt) и значений, разделенных запятыми (CSV) файл формата. Столбцы файла данных представляют переменные; строки представляют замечания и ответов. Только первая строка матрицы данных, который становится заголовок в SmartPLS, могут содержать текст. В противном случае, только цифры допускается. Пустые ячейки (например, если отсутствует значение встречается) не допускаются. Номер, который не используется в противном случае в наборе данных (например, -999999) должны быть использованы для заполнения пустых клеток. После импорта данных, пользователь может указать, что это число представляет собой недостающее значение. SmartPLS автоматически определяет данные и номер формата (например, Европа или США).Если проблема возникает, пользователь может определить, позже спецификации формата файлов и формат числа в программном обеспечении. В дополнение к переменным используемых в качестве индикаторов для моделирования PLS пути, матрица данных может содержать весовой вектор наблюдений и ответов (например, для проведения взвешенной моделирования PLS путь анализы) и группировки переменных (например, для проведения анализа PLS Графический интерфейс многогрупповое , PLS-МГА).пользователя
Графический интерфейс позволяет пользователю создать модель PLS путь. Круги представляют скрытую переменную и прямоугольные свои показатели. Индикатор стволовых от переменных множества импортером данных. Перетащите позволяет назначать показатели для скрытой переменной и, тем самым, создать модель измерения. В структурной модели, стрелка рисунок вариант позволяет пользователю подключаться скрытые переменные друг с другом.
Алгоритмы
Основной основнойчастичное мере алгоритм квадратов (Уолд 1982, Lohmöller 1989) является основным алгоритм, используемый в SmartPLS. Следующийсписокдаетобзорреализованныхалгоритмов и аналитическихвариантов:
Частичные наименьших квадратов (PLS) алгоритм моделирования пути (в том числе в соответствии PLS, PLSc)
Весовые PLS (и PLSc) алгоритм моделирования путь
Обыкновенные регрессии наименьших квадратов на основе sumscoresДополнительныепараметрысамонастройкиЗавязываниеглазЗавязывание глаз является образец повторное использование метод, который вычисляет значение Q² стоун-Geisser в качестве критерия интеллектуального актуальность. завязывание глаз применяется только к конструкции с отражающей модели измерения спецификации.
Матрица Важность эффективность анализа (IPMA)
Анализнесколькихгруппа (МГА)
Техника для проверки различий между одинаковыми моделями, рассчитанные для различных групп.Иерархических моделях комплектующих (модели второго порядка)
Нелинейные отношения (например, квадратичного эффекта)
Подтверждающиететрадногоанализа (СТА)
Статистический метод, который позволяет эмпирическое тестирование установки модели измерения.
Конечносмесь (FIMIX) сегментация
Скрытая класс подход, который позволяет выявления и лечения незаметно неоднородности в моделях пути.
Прогнозирование-ориентированнойсегментации (POS)
Документация
Встроенный Документация. Для каждого алгоритма, встроенный документация дает краткое объяснение. Она также предоставляет информацию о настройке параметров алгоритмов. Ссылки на ключевых статей позволяют пользователю получить доступ к более подробную информацию о конкретных алгоритмов и вариантов анализа.
Результаты отчетов. Для каждого анализа, SmartPLS предлагает отчет о результатах, который содержит информацию о модели и данных, используемых для анализа, ключевых результатов, критерии качества (если соответствующие течение определенного алгоритма) и графического представления результатов (если применимо). По умолчанию предлагает результаты представление в рамках программных SmartPLS. Кроме того, SmartPLS позволяет экспортировать результаты в виде файла MicrosoftExcel, в HTML файл, а в формате, который может быть использован в статистических программного обеспечения R.
19 Microsoft Excel. Понятия и возможности
Основное назначение MS Excel – решение практически любых задач расчетного характера, входные данные которых можно представить в виде таблиц. Применение электронных таблиц упрощает работу с данными и позволяет получать результаты без программирования расчётов. В сочетании же с языком программирования VisualBasicforApplication (VBA), табличный процессор MS Excel приобретает универсальный характер и позволяет решить вообще любую задачу, независимо от ее характера.
Особенность электронных таблиц заключается в возможности применения формул для описания связи между значениями различных ячеек. Расчёт по заданным формулам выполняется автоматически. Изменение содержимого какой-либо ячейки приводит к пересчёту значений всех ячеек, которые с ней связаны формульными отношениями и, тем самым, к обновлению всей таблицы в соответствии с изменившимися данными.
Основные возможности электронных таблиц:
1.   проведение однотипных сложных расчётов над большими наборами данных;
2.   автоматизация итоговых вычислений;
3.   решение задач путём подбора значений параметров;
4.   обработка (статистический анализ) результатов экспериментов;
5.   проведение поиска оптимальных значений параметров (решение оптимизационных задач);
6.   подготовка табличных документов;
7.   построение диаграмм (в том числе и сводных) по имеющимся данным;
8.   создание и анализ баз данных (списков).
Анализ данных
Когда данные вводятся на рабочий лист, Excel автоматически анализирует их определяет тип данных. Тип данных, присваиваемый ячейке по умолчанию, определяет способ анализа данных, который можно применять к данной ячейке.
Например, в большинстве инструментах анализа данных используются именно числовые значения. Если вы попробуете ввести текстовое значении, то программа отреагирует сообщением об ошибке.
Таблицы данных являются частью блока задач, который иногда называют инструментами анализа «что-если». Таблица данных представляет собой диапазон ячеек, показывающий, как изменение определенных значений в формулах влияет на результаты этих формул.
MsExcelпредставляет широкие возможности для проведения анализа данных, находящихся в списке. К средствам анализа относятся:
·     Обработка списка с помощью различных формул и функций;
·     Построение диаграмм и использование карт MsExcel;
·     Проверка данных рабочих листов и рабочих книг на наличие ошибок;
·     Структуризация рабочих листов;
·     Автоматическое подведение итогов (включая мстер частичных сумм);
·     Консолидация данных;
·     Сводные таблицы;
·     Специальные средства анализа выборочных записей и данных – подбор параметра, поиск решения, сценарии и др.
Сценарии
 Одно из главных преимуществ анализа данных – предсказание будущих событий на основе сегодняшней информации.
Сценарии являются частью блока задач, который иногда называют инструментами анализа "что-если" (Анализ «что-если».Процесс изменения значений ячеек и анализа влияния этих изменений на результат вычисления формул на листе, например изменение процентной ставки, используемой в таблице амортизации для определения сумм платежей.).
Сценарий — это набор значений, которые в приложении MicrosoftOfficeExcel сохраняются и могут автоматически подставляться в лист. Сценарии можно использовать для прогноза результатов моделей расчетов листа.
20. MATLAB (сокращение от англ. «MatrixLaboratory», в русском языке произносится как Матла́б) — пакет прикладных программдля решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете. 
Описание языка
Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования.
Программы, написанные на MATLAB, бывают двух типов — функции и скрипты. Функции имеют входные и выходные аргументы, а также собственное рабочее пространство для хранения промежуточных результатов вычислений и переменных. Скрипты же используют общее рабочее пространство. Как скрипты, так и функции не компилируются в машинный код и сохраняются в виде текстовых файлов. Существует также возможность сохранять так называемые pre-parsed программы — функции и скрипты, обработанные в вид, удобный для машинного исполнения. В общем случае такие программы выполняются быстрее обычных, особенно если функция содержит команды построения графиков.
Основной особенностью языка MATLAB являются его широкие возможности по работе с матрицами, которые создатели языка выразили в лозунге «думай векторно» 
Применение
Математика и вычисления
MATLAB предоставляет пользователю большое количество (несколько сотен) функций для анализа данных, покрывающие практически все области математики, в частности:
Матрицы и линейная алгебра — алгебра матриц, линейные уравнения, собственные значения и вектора, сингулярности, факторизация матриц и другие.
Многочлены и интерполяция — корни многочленов, операции над многочленами и их дифференцирование, интерполяция и экстраполяция кривых и другие.
Математическая статистика и анализ данных — статистические функции, статистическая регрессия, цифровая фильтрация, быстрое преобразование Фурье и другие.
Обработка данных — набор специальных функций, включая построение графиков, оптимизацию, поиск нулей, численное интегрирование (в квадратурах) и другие.
Дифференциальные уравнения — решение дифференциальных и дифференциально-алгебраических уравнений, дифференциальных уравнений с запаздыванием, уравнений с ограничениями, уравнений в частных производных и другие.
Разреженные матрицы — специальный класс данных пакета MATLAB, использующийся в специализированных приложениях.
Целочисленная арифметика — выполнение операций целочисленной арифметики в среде MATLAB.
Разработка алгоритмов
MATLAB предоставляет удобные средства для разработки алгоритмов, включая высокоуровневые с использованием концепций объектно-ориентированного программирования. В нём имеются все необходимые средства интегрированной среды разработки, включая отладчик и профайлер. Функции для работы с целыми типами данных облегчают создание алгоритмов для микроконтроллеров и других приложений, где это необходимо.
Визуализация данных
В составе пакета MATLAB имеется большое количество функций для построения графиков, в том числе трёхмерных, визуального анализа данных и созданияанимированных роликов.
Встроенная среда разработки позволяет создавать графические интерфейсы пользователя с различными элементами управления, такими как кнопки, поля ввода и другими.
Независимые приложения
Программы MATLAB, как консольные, так и с графическим интерфейсом пользователя, могут быть собраны с помощью компоненты MATLAB Compiler в независимые от MATLAB исполняемые приложения или динамические библиотеки, для запуска которых на других компьютерах, однако, требуется установка свободно распространяемой среды MATLAB CompilerRuntime (MCR)[5].
Внешние интерфейсы
Пакет MATLAB включает различные интерфейсы для получения доступа к внешним подпрограммам, написанным на других языках программирования, данным, клиентам и серверам, общающимся через технологии  HYPERLINK "https://ru.wikipedia.org/wiki/Component_Object_Model" \o "Component Object Model" ComponentObjectModel или  HYPERLINK "https://ru.wikipedia.org/wiki/Dynamic_Data_Exchange" \o "Dynamic Data Exchange" DynamicDataExchange, а также периферийным устройствам, которые взаимодействуют напрямую с MATLAB. Многие из этих возможностей известны под названием MATLAB API.

Приложенные файлы

  • docx 713352
    Размер файла: 669 kB Загрузок: 0

Добавить комментарий