Описательные статистики, группировки, разведочный анализ. Методы добычи данных Создание Web-страниц со сводными диаграммами

Ответ:

С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

К методам визуализации относятся:

Представление данных в виде столбчатых, линейных диаграмм в многомерном пространстве;

Наложение и объединение нескольких изображений;

Идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям;

Расщепление или слияние подгрупп данных на графике;

Агрегирование данных;

Сглаживание данных;

Построение пиктографиков;

Создание мозаичных структур;

Спектральных плоскостей, карт линий уровня; методы динамического вращения и динамического расслоения трехмерных изображений; выделение определенных наборов и блоков данных и т.д.

Типы графиков в Statistica:

§ двумерные графики;(гистограммы)

§ трехмерные графики;

§ матричные графики;

§ пиктографики.

Ответ: Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

График представляет собой набор графиков, круговые диаграммы для каждой определенной категории выбранной переменной (2 пола – по 2м полам).

Структура категоризированных данных может быть обработана аналогичным образом. : например накоплена статистика о покупателях и необходимо провести анализ суммы покупки по различным категориям (мужчины-женщины, старики-зрелые-молодежь).

В статистике – гистограммы, диаграммы рассеяния, линейные графики, круговые диаграммы, 3мерные графики, 3мерные тернарные графики

Как вы можете видеть, эта переменная в целом имеет для каждой группы (типа цветов) нормальное распределение.

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ:

Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.



Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого - по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.

Каждая точка, отмеченная на диаграмме, включает две характеристики, например возраст и доход индивида, отложенные каждая по своей оси. Нередко это помогает выяснить, существует ли какая-либо значимая статистическая связь между этими характеристиками и какой тип функции имеет смысл подбирать. А

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ

: Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.



Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

Гистограмма, это способ представления статистических данных в графическом виде – в виде столбчатой диаграммы. Она отображает распределение отдельных измерений параметров изделия или процесса. Иногда ее называют частотным распределением, так как гистограмма показывает частоту появления измеренных значений параметров объекта.

Высота каждого столбца указывает на частоту появления значений параметров в выбранном диапазоне, а количество столбцов – на число выбранных диапазонов.

Важное преимущество гистограммы заключается в том, что она позволяет наглядно представить тенденции изменения измеряемых параметров качества объекта и зрительно оценить закон их распределения. Кроме того, гистограмма дает возможность быстро определить центр, разброс и форму распределения случайной величины. Строится гистограмма, как правило, для интервального изменения значений измеряемого параметра.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ:

Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков.

атричные графики. На матричных графиках изображаются зависимости между несколькими переменными в форме матрицы XY-графиков. Наиболее распространенным типом матричного графика является матрица диаграмм рассеяния, которую можно считать графическим эквивалентом корреляционной матрицы.

Матричные графики - Диаграммы рассеяния. На матричном графике этого типа изображаются 2М диаграммы рассеяния, организованные в форме матрицы (значения переменной по столбцу используются в качестве координат X , а значения переменной по строке - в качестве координат Y ). Гистограммы, изображающие распределение каждой переменной, располагаются на диагонали матрицы (в случае квадратных матриц) или по краям (в случае прямоугольных матриц).

См. также раздел Сокращение объема выборки.

Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ: + Наглядность и простота.

Наглядность (многомерное графическое представление данных, по которому аналитик сам выявляет закономерности и отношения между данными).

- Методы дают приближенные значения.

n - Высокая доля субъективизма в интерпретации результатов.

n Отсутствие аналитических моделей.

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ: Статистические методы, нейронные сети.

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ: Распределение x 2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ: Основные статистические характеристики количественных переменных:

математическое ожидание (среднее среди выборки, сумма значений\n ,седнирй объем производства среди предприятий)

медиана(середина значений.)

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

выборочные верхнюю и нижнюю квартили

Мода (пиковое значение)

12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.

Ответ: Корреляция - статистическая взаимосвязь двух или нескольких случайных величин.

При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляции.

Количественные:

Коэффициент корреляции - это показатель характера изменения двух случайных величин.

Коэффициента корреляции Пирсона (измеряет степень линейных связей между переменными. Можно сказать, что корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.)

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

| следующая лекция ==>

Data Mining Фролов Тимофей. БИ-1102 Добыча данных это процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение модели или структуры и ее проверку. В идеальном случае, при достаточном количестве данных можно организовать итеративную процедуру для построения устойчивой модели. В то же время, в реальной ситуации практически невозможно проверить экономическую модель на стадии анализа и поэтому начальные результаты имеют характер эвристик, которые можно использовать в процессе принятия решения (например, "Имеющиеся данные свиделельствуют о том, что у женщин частота приема снотворных средств увеличивается с возрастом быстрее, чем у мужчин."). Методы Data Mining приобретают все большую популярность в качестве инструмента для анализа экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации), в целом системы Data Mining по-прежнему основываются на классических принципах разведочного анализа данных(РАД) и построения моделей и используют те же подходы и методы. Имеется, однако, важное отличие процедуры Data Mining от классического разведочного анализа данных (РАД) : системы Data Mining в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при Data Mining нас не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области Data Mining принят такой подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик". При этом используются не только классические приемы разведочного анализа данных, но и такие методы, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан. Очень часто Data Mining трактуется как "смесь статистики, методов искуственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась полноценной областью интереса для специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты (см. например, материалы ежегодно проводимой Международной конференции по поиску знаний и Data Mining (International Conferences on Knowledge Discovery and Data Mining), одним из организаторов которой в 1997 году стала Американская статистическая ассоциация - American Statistical Association). хранилище данных это место хранения больших многомерных массивов данных, которое позволяет легко извлекать и использовать информацию в процедурах анализа. Эффективная архитектура хранилища данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием (или по крайней мере иметь связь со всеми доступными данными). При этом необходимо использовать специальные технологии работы с корпоративными базами данных (например, Oracle, Sybase, MS SQL Server). Высокопроизводительная технология хранилищ данных, позволяющая пользователям организовать и эффективно использовать базу данных предприятия практически неограниченной сложности, разработана компанией StatSoft enterprise systems и называется SENS и SEWSS ). Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы. Обратите внимание, что несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Хотя методы Data Mining можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы Data Mining можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP. РАД и проверка гипотез В отличие от традиционной проверки гипотез, предназначенной для проверки априорных предположений, касающихся связей между переменными (например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать"), разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы. Вычислительные методы РАД Вычислительные методы разведочного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных. Основные методы разведочного статистического анализа. К основным методам разведочного статистического анализа относится процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные), просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения (см. предыдущий пример), или анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных). Методы многомерного разведочного анализа. Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ лискриминантных функций, многомерное шкалирование, логлинейный анализ,канонические корреляции, пошаговая линейная и нелинейная (например, логит) регрессия, анализ соответствий, анализ временных рядов. Нейронные сети. Этот класс аналитических методов основан на идее воспроизведения процессов обучения мыслящих существ (как они представляются исследователям) и функций нервных клеток. Нейронные сети могут прогнозировать будущие значения переменных по уже имеющимся значениям этих же или других переменных, предварительно осуществив процесс так называемого обучения на основе имеющихся данных. Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных и определив степень ее согласованности с данными (проверка "способности к прогнозированию"). Для быстрого выделения различных подмножеств данных (например, для очистки, проверки и пр.) и оценки надежности результатов удобно пользоваться условиями выбора наблюдений.

Данная глава продолжает тему главы Построение и анализ таблиц. Мы рекомендуем просмотреть ее, а затем приступить к чтению данного текста и упражнениям на STATISTICA.

Анализ соответствий (по-английски coirespondence analysis) - это разведочный метод анализа, позволяющий визуально и численно исследовать структуру таблиц сопряженности большой размерности.

В настоящее время анализ соответствий интенсивно применяется в разнообразных областях, в частности, в социологии, экономике, маркетинге, медицине, управлении городами (см. например, Thomas Werani, Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, p. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas).

Известны применения метода в археологии, анализе текстов, где важно исследовать структуры данных (см. Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

В качестве дополнительных примеров приведем:

  • Исследование социальных групп населения в различных регионах со статьями расхода по каждой группе.
  • Исследования результатов голосования в ООН по принципиальным вопросам (1 - за, 0 - против, 0,5 - воздержался, например, в 1967 году исследовалось 127 стран по 13 важным вопросам) показывают, что по первому фактору страны отчетливо разделяются на две группы: одна с центром США, другая с центром СССР (двухполюсная модель мира). Другие факторы могут интерпретироваться как изоляционизм, неучастие в голосовании и т. д.
  • Исследование импорта автомобилей (марка машины - строка таблицы, страна производитель - столбец).
  • Исследование таблиц, используемых в палеонтологии, когда по выборке разрозненных частей скелетов животных делаются попытки их классифицировать (отнести к одному из возможных типов: зебра, лошадь и т. д.).
  • Исследование текстов. Известен следующий экзотический пример: журнал New-Yorker попросил лингвистов установить анонимного автора скандальной книги об одной президентской кампании. Экспертам были предложены тексты 15 возможных авторов и текст анонимного издания. Тексты представлялись строками таблицы. В строке i отмечалось частота данного слова j. Таким образом получалась таблица сопряженности. Методом анализа соответствий был определен наиболее вероятный автор скандального текста.

Применение анализа соответствий в медицине связано с исследованием структуры сложных таблиц, содержащих индикаторные переменные, показывающие наличие или отсутствие у пациента данного симптома. Подобного рода таблицы имеют большую размерность, и исследование их структуры представляет нетривиальную задачу.

Задачи визуализации сложных объектов могут быть также исследованы, по крайней мере, к ним можно найти подход, с помощью анализа соответствий. Изображение - это многомерная таблица, и задача состоит в том, чтобы найти плоскость, позволяющую максимально точно воспроизвести исходное изображение.

Математическое основание метода. Анализ соответствия опирается на статистику хи-квадрат. Можно сказать, что это новая интерпретация статистики хи-квадрат Пирсона.

Метод во многом похож на факторный анализ, однако, в отличие от него, здесь исследуются таблицы сопряженности, а критерием качества воспроизведения многомерной таблицы в пространстве меньшей размерности является значение статистики хи-квадрат. Неформально можно говорить об анализе соответствий как о факторном анализе категориальных данных и рассматривать его также как метод сокращения размерности.

Итак, строки или столбцы исходной таблицы представляются точками пространства, между которыми вычисляется расстояние хи-квадрат (аналогично тому, как вычисляется статистика хи-квадрат для сравнения наблюдаемых и ожидаемых частот).

Далее требуется найти пространство небольшой размерности, как правило, двухмерное, в котором вычисленные расстояния минимально искажаются, и в этом смысле максимально точно воспроизвести структуру исходной таблицы с сохранением связей между признаками (если вы имеете представление о методах многомерного шкалирования, то почувствуете знакомую мелодию).

Итак, мы исходим из обычной таблицы сопряженности, то есть таблицы, в которой сопряжены несколько признаков (подробнее о таблицах сопряженности см. главу Построение и анализ таблиц).

Допустим, что имеются данные о пристрастии к курению сотрудников некоторой компании. Подобные данные имеются в файле Smoking.sta, входящем в стандартный комплект примеров системы STATISTICA.

В этой таблице признак курение сопряжен с признаком должность:

Группа сотрудников

(1) Некурящие

(2) Слабо курящие

(3) Средне курящие

(4) Сильно курящие

Всего по строке

(1) Старшие менеджеры

(2) Младшие менеджеры

(3) Старшие сотрудники

(4) Младшие сотрудники

(5) Секретари

Всего по столбцу

Это простая двухвходовая таблица сопряженности. Вначале рассмотрим строки.

Можно считать, что 4 первых числа каждой строки таблицы (маргинальные частоты, то есть последний столбец не учитывается) являются координатами строки в 4-мерном пространстве, а значит, формально можно вычислить расстояния хи-квадрат между этими точками (строками таблицы).

При данных маргинальных частотах можно отобразить эти точки в пространстве размерности 3 (число степеней свободы равно 3).

Очевидно, что чем меньше расстояние, тем больше сходство между группами, и наоборот - чем больше расстояния, тем больше различие.

Теперь предположим, что можно найти пространство меньшей размерности, например, размерности 2, для представления точек-строк, которое сохраняет всю или, точнее, почти всю информацию о различиях между строками.

Возможно, такой подход неэффективен для таблиц небольшой размерности, как приведенная выше, однако полезен для больших таблиц, возникающих, например, в маркетинговых исследованиях.

Например, если записаны предпочтения 100 респондентов при выборе 15 сортов пива, то в результате применения анализа соответствий можно представить 15 сортов (точек) на плоскости (см. далее анализ продаж). Анализируя расположение точек, вы увидите закономерности при выборе пива, которые будут полезны при проведении маркетинговой кампании.

В анализе соответствий используется определенный сленг.

Масса . Наблюдения в таблице нормируются: вычисляются относительные частоты для таблицы, сумма всех элементов таблицы становится равной 1 (каждый элемент делится на общее число наблюдений, в данном примере на 193). Создается аналог двухмерной плотности распределения. Полученная стандартизованная таблица показывает, как распределена масса по ячейкам таблицы или по точкам пространства. На сленге анализа соответствий суммы по строкам и столбцам в матрице относительных частот называются массой строки и столбца соответственно.

Инерция. Инерция определяется как значение хи-квадрат Пирсона для двух-входовой таблицы, деленный на общее количество наблюдений. В данном примере: общая инерция = 2 /193 - 16,442.

Инерция и профили строк и столбцов. Если строки и столбцы таблицы полностью независимы (между ними нет связи - например, курение не зависит от должности), то элементы таблицы могут быть воспроизведены при помощи сумм по строкам и столбцам или, в терминологии анализа соответствий, при помощи профилей строк и столбцов (с использованием маргинальных частот; см. главу Построение и анализ таблиц с описанием критерия хи-квадрат Пирсона и точный критерий Фишера).

В соответствии с известной формулой вычисления хи-квадрат для двухвходовых таблиц ожидаемые частоты таблицы, в которой столбцы и строки независимы, вычисляются перемножением соответствующих профилей столбцов и строк с делением полученного результата на общую сумму.

Любое отклонение от ожидаемых величин (при гипотезе о полной независимости переменных по строкам и столбцам) будет давать вклад в статистику хи-квадрат.

Анализ соответствий можно рассматривать как разложение статистики хи-квадрат на компоненты с целью определения пространства наименьшей размерности, позволяющего представить отклонения от ожидаемых величин (см. таблицу ниже).

Здесь показаны таблицы с ожидаемыми частотами, рассчитанными при гипотезе независимости признаков, и наблюдаемыми частотами, а также таблица вкладов ячеек в хи-квадрат:


Например, из таблицы видно, что число некурящих младших сотрудников примерно на 10 меньше, чем можно было бы ожидать при гипотезе независимости. Число некурящих старших сотрудников, наоборот, на 9 больше, чем молено было бы ожидать при гипотезе независимости, и т. д. Однако хотелось бы иметь общую картину.

Цель анализа соответствий состоит в том, чтобы суммировать эти отклонения от ожидаемых частот не в абсолютных, а в относительных единицах.


Анализ строк и столбцов. Вместо строк таблицы можно рассматривать также столбцы и представить их точками в пространстве меньшей размерности, которое максимально точно воспроизводит сходство (и расстояния) между относительными частотами для столбцов таблицы. Можно одновременно отобразить на одном графике столбцы и строки, представляющие всю информацию, содержащуюся в двухвходовой таблице. И этот вариант - самый интересный, так как позволяет провести содержательный анализ результатов.

Результаты. Результаты анализа соответствий обычно представляются в виде графиков, как было показано выше, а также в виде таблиц типа:

Число измерений

Процент инерции

Кумулятивный процент

Хи-квадрат

Посмотрите на эту таблицу. Как вы помните, цель анализа - найти пространство меньшей размерности, восстанавливающее таблицу, при этом критерием качества является нормированный хи-квадрат, или инерция. Можно заметить, что если в рассматриваемом примере использовать одномерное пространство, то есть одну ось, можно объяснить 87,76% инерции таблицы.


Две размерности позволяют объяснить 99,51% инерции.

Координаты строк и столбцов. Рассмотрим получившиеся координаты в двухмерном пространстве.

Имя строки

Изменение 1

Изменение 2

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Можно изобразить это на двухмерной диаграмме.


Очевидным преимуществом двухмерного пространства является то, что строки, отображаемые в виде близких точек, близки друг к другу и по относительным частотам.

Рассматривая положение точек по первой оси, можно заметить, что Ст. сотрудники и Секретари относительно близки по координатам. Если же обратить внимание на строки таблицы относительных частот (частоты стандартизованы так, что их сумма по каждой строке равна 100%), то сходство данных двух групп по категориям интенсивности курения становится очевидным.

Проценты по строке:

Категории курящих

Группа сотрудников

(1) Некурящие

(2) Слабо курящие

(3) Средне курящие

(4) Сильно курящие

Всего по строке

(1) Старшие менеджеры

(2) Младшие менеджеры

(3) Старшие сотрудники

(4) Младшие сотрудники

(5} Секретари

Окончательной целью анализа соответствий является интерпретация векторов в полученном пространстве более низкой размерности. Одним из способов, который может помочь в интерпретации полученных результатов, является представление на диаграмме столбцов. В следующей таблице показаны координаты столбцов:

Измерение 1

Измерение 2

Некурящие

Слабо курящие

Средне курящие

Сильно курящие

Можно сказать, что первая ось дает градацию интенсивности курения. Следовательно, большую степень сходства между Старшими менеджерами и Секретарями можно объяснить наличием в данных группах большого количества Некурящих.

Метрика координатной системы. В ряде случаев термин расстояние использовался для обозначения различий между строками и столбцами матрицы относительных частот, которые, в свою очередь, представлялись в пространстве меньшей размерности в результате использования методов анализа соответствий.

В действительности расстояния, представленные в виде координат в пространстве соответствующей размерности, - это не просто евклидовы расстояния, вычисленные по относительным частотам столбцов и строк, а некоторые взвешенные расстояния.

Процедура подбора весов устроена таким образом, чтобы в пространстве более низкой размерности метрикой являлась метрика хи-квадрат, учитывая, что сравниваются точки-строки и выбирается стандартизация профилей строк или стандартизация профилей строк и столбцов или же сравниваются точки-столбцы и выбирается стандартизация профилей столбцов или стандартизация профилей строк и столбцов.

Оценка качества решения. Имеются специальные статистики, помогающие оценить качество полученного решения. Все или большинство точек должны быть правильно представлены, то есть расстояния между ними в результате применения процедуры анализа соответствий не должны искажаться. В следующей таблице показаны результаты вычисления статистик по имеющимся координатам строк, основанные только на одномерном решении в предыдущем примере (то есть только одно измерение использовалось для восстановления профилей строк матрицы относительных частот).

Координаты и вклад в инерцию строки:

Относит инерция.

Инерция измер.1

Косинус**2 измер.1

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Координаты. Первый столбец таблицы результатов содержит координаты, интерпретация которых, как уже отмечалось, зависит от стандартизации. Размерность выбирается пользователем (в данном примере мы выбрали одномерное пространство), и координаты отображаются для каждого измерения (то есть отображается по одному столбцу координат на каждую ось).

Масса. Масса содержит суммы всех элементов для каждой строки матрицы относительных частот (то есть для матрицы, где каждый элемент содержит соответствующую массу, как уже упоминалось выше).

Если в качестве метода стандартизации выбрана опция Профили строк или опция Профили строк и столбцов , которая установлена по умолчанию, то координаты строк вычисляются по матрице профилей строк. Другими словами, координаты вычисляются на основе матрицы условных вероятностей, представленной в столбце Масса .

Качество. Столбец Качество содержит информацию о качестве представления соответствующей точки-строки в координатной системе, определяемой выбранной размерностью. В рассматриваемой таблице было выбрано только одно измерение, поэтому числа в столбце Качество являются качеством представления результатов в одномерном пространстве. Видно, что качество для старших менеджеров очень низкое, но высокое для старших и младших сотрудников и секретарей.

Отметим еще раз, что в вычислительном плане целью анализа соответствий является представление расстояний между точками в пространстве более низкой размерности.

Если используется максимальная размерность (равная минимуму числа строк и столбцов минус один), можно воспроизвести все расстояния в точности.

Качество точки определяется как отношение квадрата расстояния от данной точки до начала координат, в пространстве выбранной размерности, к квадрату расстояния до начала координат, определенному в пространстве максимальной размерности (в качестве метрики в этом случае выбрана метрика хи-квадрат, как уже упоминалось ранее). В факторном анализе имеется аналогичное понятие общность.

Качество, вычисляемое системой STATISTICA, не зависит от выбранного метода стандартизации и всегда использует стандартизацию, установленную по умолчанию (то есть метрикой расстояния является хи-квадрат, и мера качества может интерпретироваться как доля хи-квадрат, определяемая соответствующей строкой в пространстве соответствующей размерности).

Низкое качество означает, что имеющееся число измерений недостаточно хорошо представляет соответствующую строку (столбец).

Относительная инерция. Качество точки (смотри выше) представляет отношение вклада данной точки в общую инерцию (Хи-квадрат), что может объяснять выбранную размерность.

Качество не отвечает на вопрос, насколько в действительности и в каких размерах соответствующая точка вносит вклад в инерцию (величину хи-квадрат).

Относительная инерция представляет долю общей инерции, принадлежащую данной точке, и не зависит от выбранной пользователем размерности. Отметим, что какое-либо частное решение может достаточно хорошо представлять точку (высокое качество), но та же точка может вносить очень малый вклад в общую инерцию (то есть точка-строка, элементами которой являются относительные частоты, имеет сходство с некоторой строкой, элементы которой представляют собой среднее по всем строкам).

Относительная инерция для каждой размерности. Данный столбец содержит относительный вклад соответствующей точки-строки в величину инерции, обусловленный соответствующей размерностью. В отчете данная величина приводится для каждой точки (строки или столбца) и для каждого измерения.

Косинус**2 (качество, или квадратичные корреляции с каждой размерностью). Данный столбец содержит качество для каждой точки, обусловленное соответствующей размерностью. Если просуммировать построчно элементы столбцов косинус**2 для каждой размерности, то в результате получим столбец величин Качество, о которых уже упоминалось выше (так как в рассматриваемом примере была выбрана размерность 1, то столбец Косинус 2 совпадает со столбцом Качество). Эта величина может интерпретироваться как «корреляция» между соответствующей точкой и соответствующей размерностью. Термин Косинус**2 возник по причине того, что данная величина является квадратом косинуса угла, образованного данной точкой и соответствующей осью.

Дополнительные точки. Помощь в интерпретации результатов может оказать включение дополнительных точек-строк или столбцов, которые на первоначальном этапе не участвовали в анализе. Имеется возможность для включения как дополнительных точек-строк, так и дополнительных точек-столбцов. Можно также отображать дополнительные точки вместе с исходными на одной диаграмме. Например, рассмотрим следующие результаты:

Группа сотрудников

Измерение 1

Измерение 2

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Национальное среднее

Данная таблица отображает координаты (для двух размерностей), вычисленные для частотной таблицы, состоящей из классификации степени пристрастия к курению среди сотрудников различных должностей.

Строка Национальное среднее содержит координаты дополнительной точки, которая является средним уровнем (в процентах), подсчитанным по различным национальностям курящих. В данном примере это чисто модельные данные.

Если вы построите двухмерную диаграмму групп сотрудников и Национального среднего, то сразу убедитесь в том, что данная дополнительная точка и группа Секретари очень близки друг к другу и расположены по одну сторону горизонтальной оси координат с категорией Некурящие (точкой-столбцом). Другими словами, выборка, представленная в исходной частотной таблице, содержит больше курящих, чем Национальное среднее.

Хотя такое же заключение можно сделать, взглянув на исходную таблицу сопряженности, в таблицах больших размеров подобные выводы, конечно, не столь очевидны.

Качество представления дополнительных точек. Еще одним интересным результатом, касающимся дополнительных точек, является интерпретация качества, представления при заданной размерности.

Еще раз отметим, что целью анализа соответствий является представление расстояний между координатами строк или столбцов в пространстве более низкой размерности. Зная, как решается данная задача, необходимо ответить на вопрос, является ли адекватным (в смысле расстояний до точек в исходном пространстве) представление дополнительной точки в пространстве выбранной размерности. Ниже представлены статистики для исходных точек и для дополнительной точки Национальное среднее применительно к задаче в двухмерном пространстве.

Младшие менеджеры0,9998100,630578

Напомним, что качество точек-строк или столбцов определено как отношение квадрата расстояния от точки до начала координат в пространстве сниженной размерности к квадрату расстояния от точки до начала координат в исходном пространстве (в качестве метрики, как уже отмечалось, выбирается расстояние хи-квадрат).

В определенном смысле качество является величиной, объясняющей долю квадрата расстояния до центра тяжести исходного облака точек.

Дополнительная точка-строка Национальное среднее имеет качество, равное 0,76. Это означает, что данная точка достаточно хорошо представлена в двухмерном пространстве. Статистика Косинус**2 - это качество представления соответствующей точки-строки, обусловленное выбором пространства заданной размерности (если просуммировать построчно элементы столбцов Косинус 2 для каждого измерения, то в результате мы придем к величине Качество, полученной ранее).

Графический анализ результатов. Это самая важная часть анализа. По существу вы можете забыть о формальных критериях качества, однако руководствоваться некоторыми простыми правилами, позволяющими понимать графики.

Итак, на графике представляются точки-строки и точки, столбцы. Хорошим тоном является представление и тех и других точек (мы ведь анализируем связи строк и столбцов таблицы!).

Обычно горизонтальная ось соответствует максимальной инерции. Около стрелки показан процент общей инерции, объясняемый данным собственным значением. Часто указывают также соответствующие собственные значения, взятые из таблицы результатов. Пересечение двух осей - это центр тяжести наблюдаемых точек, соответствующий средним профилям. Если точки принадлежат одному и тому же типу, то есть являются либо строками, либо столбцами, то чем меньше расстояние между ними, тем теснее связь. Для того чтобы установить связь между точками разного типа (между строками и столбцами), следует рассмотреть углы между ними с вершиной в центре тяжести.

Общее правило визуальной оценки степени зависимости заключается в следующем.

  • Рассмотрим 2 произвольные точки разного типа (строки и столбцы таблицы).
  • Соединим их отрезками прямых с центром тяжести (точка с координатами 0,0).
  • Если образовавшийся угол острый, то строка и столбец положительно коррелированы.
  • Если образовавшийся угол тупой, то корреляция между переменными отрицательная.
  • Если угол прямой, корреляция отсутствует.

Рассмотрим анализ конкретных данных в системе STATISTICA.

Пример 1 (анализ курильщиков)

Шаг 1 . Запустите модуль Анализ соответствий.

В стартовой панели модуля имеются 2 вида анализа: анализ соответствий и многомерный анализ соответствий.

Выберите Анализ соответствий. Многомерный анализ соответствий будет рассмотрен в следующем примере.

Шаг 2. Откройте файл данных smoking.sta папки Examples.


Файл уже представляет собой таблицу сопряженности, поэтому табуляция не требуется. Выберите вид анализа - Частоты без группирующей переменной.

Шаг 3 . Нажмите кнопку Переменные с частотами и выберите переменные для анализа.

В данном примере выберите все переменные.


Шаг 4. Нажмите OK и запустите вычислительную процедуру. На экране появится окно с результатами.


Шаг 5. Рассмотрим результаты с помощью опций данного окна.

Обычно сначала рассматриваются графики, для чего имеется группа кнопок График координат.

Графики доступны для строк и столбцов, а также для строк и столбцов одновременно.

Размерность максимального простарнства задается в опции Размерность .

Наиболее интересна размерность 2. Заметьте, что на графике, особенно если имеется множество данных, метки могут накладываться друг на друга, поэтому может быть полезной опция Сократить метки.

Нажмите третью кнопку 2М в диалоговом окне. На экране появится график:


Заметьте, что на графике представлены оба фактора: группа сотрудников - строки и интенсивность курения - столбцы.

Соедините отрезком прямой категорию СТАРШИЕ СОТРУДНИКИ, а также категорию НЕТ с центром тяжести.

Образовавшийся угол будет острым, что на языке анализа соответствий говорят о наличии положительной корреляции между этими признаками (просмотрите исходную таблицу, чтобы убедиться в этом).

Координаты строк и столбцов можно посмотреть и в численном виде с помощью кнопки Координаты строк и столбцов .


Используя кнопку Собственные значения , можно увидеть разложение статистики хи-квадрат по собственным значениям.

Опция График только выбранных измерений позволяет просмотреть координаты точек по выбранным осям.

Группа опцийПросмотр таблиц в правой части окна позволяет просмотреть исходную и ожидаемую таблицу сопряженности, разности между частотами и другие параметры, вычисленные при гипотезе независимости табулированных признаков (см главу Построение и анализ таблиц, критерий хи-квадрат).

Таблицы большой размерности лучше всего исследовать постепенно, вводя по мере надобности дополнительные переменные. Для этого предусмотрены опции: Добавить точки-строки, Добавить точки-столбцы.

Пример 2 (анализ продаж)

В главе Анализ и построение таблиц был рассмотрен пример, связанный с анализом продаж. Применим к данным анализ соответствий.

Ранее отмечалось, что вопрос, какие именно покупки произвел покупатель при условии, что куплено 3 товара, является сложным.

Действительно, всего мы имеем 21 продукт. Чтобы просмотреть все таблицы сопряженности, требуется выполнить 21×20×19 = 7980 действий. Число действий катастрофически возрастает при увеличении товаров и количества признаков. Применим анализ соответствий. Откроем файл данных с индикаторными переменными, отмечающими купленный продукт.


В стартовой панели модуля выберем Многомерный анализ соответствий.


Зададим условие выбора наблюдений.


Это условие позволяет выбрать покупателей, сделавших ровно 3 покупки.

Поскольку мы имеем дело с нетабулированными данными, выберем вид анализа Исходные данные (требуется табуляция).

Для удобства дальнейшего графического представления выберем небольшое количество переменных. Выберем также дополнительные переменные (см; окно ниже).


Запустим вычислительную процедуру.


В появившемся окнеРезультаты многомерного анализа соответствий просмотрим результаты.

С помощью кнопки 2М выводится двухмерный график переменных.

На этом графике дополнительные переменные отмечены красными точками, что удобно для визуального анализа.

Заметьте, что каждая переменная имеет признак 1, если товар куплен, и признак 0, если товар не куплен.

Рассмотрим график. Выберем, например, близкие пары признаков.

В итоге получим следующее:


Аналогичные исследования можно провести и для других данных, когда отсутствуют какие-либо априорные гипотезы о зависимостях в данных.

В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.

Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

Постановка задачи

Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать ), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация

На первом этапе выясним, формируют ли автомобили "естественные" кластеры, которые могут быть осмыслены.

Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ . В этом диалоге выберем Иерархическая классификация и нажмем OK .

Нажмем кнопку Переменные , выберем Все , в поле Объекты выберем Наблюдения (строки ). В качестве правила объединения отметим Метод полной связи , в качестве меры близости - Евклидово расстояние . Нажмем ОК .

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма .

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

Как только вы начнете двигаться вниз, автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Шаг 2. Кластеризация методом К средних

Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних .

Нажмем кнопку Переменные и выберем Все , в поле Объекты выберем Наблюдения (строки ), зададим 4 кластера разбиения.

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.

Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

Первый кластер:

Второй кластер:

Третий кластер:

Четвертый кластер:

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.