Przygotowanie danych do modelowania

IBM SPSS Modeler

///

Przygotowanie danych do modelowania

icon3_white

IBM SPSS MODELER umożliwia przygotowanie danych do modelowania.

Pozwala na sprawdzanie i poprawę jakości danych, identyfikację rekordów nietypowych, wyliczanie nowych atrybutów, zmianę sposobu kodowania, normalizację wartości itp. Możliwa jest także automatyczna selekcja użytecznych predyktorów.
icon_cl_bw

PS Clementine PRO

zintegrowane środowisko analiz
data mining i big data
zobacz kompletne rozwiązanie

<p><strong>Wyliczanie</strong></p>Wykonywanie obliczeń przy pomocy przekształceń algebraicznych, funkcji i innych metod

Wyliczanie

Wykonywanie obliczeń przy pomocy przekształceń algebraicznych, funkcji i innych metod.

Program pozwala wyliczać nowe cechy poprzez wykonywanie przekształceń algebraicznych, wykorzystywanie funkcji operacji na danych, definiowanie warunków logicznych, redukowanie liczby kategorii zmiennej itp.

W konstruktorze wyrażeń, dostępna jest szeroka gama wbudowanych funkcji, w tym arytmetycznych, logicznych, operujących na ciągach tekstowych, na datach, funkcji konwersji czy prawdopodobieństwa. Możliwe jest także korzystanie z funkcji bazodanowych.


Rekodowanie i kategoryzacja

Podział na kategorie wartości cech ilościowych oraz zmiana sposobu kodowania wartości cech jakościowych.

Program daje możliwość przypisania nowych wartości do istniejących kolumn w tabeli, zmiany sposobu kodowania wartości lub łączenia kilku wartości w nową wartość. Możliwy jest również automatyczny podział cech ilościowych na kategorie za pomocą wybranej metody kategoryzacji.

Program umożliwia utworzenie przedziałów o ustalonej szerokości, przedziałów o równej liczebności lub równych co do sum, a także podział wartości cech w oparciu o wskazaną liczbę odchyleń standardowych od średniej. Podział może się też dokonać w oparciu o algorytm rangowania bądź przy kontroli kategorialnej cechy nadzorującej.

<p><strong>Rekodowanie i kategoryzacja</strong></p>Podział na kategorie wartości cech ilościowych oraz zmiana sposobu kodowania wartości cech jakościowych

<p><strong>Automatyczne przygotowanie danych</strong></p>Automatyczne przygotowanie danych do analiz poprzez poprawę jakości danych, normalizowanie wartości, zmianę sposobu kodowania itp.

Automatyczne przygotowanie danych

Automatyczne przygotowanie danych do analiz poprzez poprawę jakości danych, normalizowanie wartości, zmianę sposobu kodowania itp.

Program pozwala w sposób automatyczny dokonać poprawy jakości danych poprzez korektę poziomu pomiaru cech numerycznych, zastępowanie wartości odstających, zastępowanie braków danych.

Program automatycznie wyklucza cechy o stałych wartościach, zmienne o zbyt dużej liczbie braków czy zmienne o zbyt dużej liczbie unikatowych kategorii. Program umożliwia automatyczne wykonanie przekształceń, w celu sprowadzenia cech do wspólnej skali czy też wyliczenia czasu trwania z kolumn w formacie daty i czasu.


Wybór predyktorów

Ocena siły wpływu predyktorów na wartości przewidywane i ich automatyczna selekcja.

Program umożliwia automatyczny wybór predyktorów do budowy modeli predykcyjnych.

Algorytm odfiltrowuje nieistotne i problematyczne predyktory, takie jak cechy ze zbyt dużą liczbą braków danych lub zbyt dużą liczbą kategorii. Umożliwia sortowanie pozostałych cech i przypisanie rang na podstawie siły związku. Następnie określa podzbiór predyktorów użytecznych dla modeli predykcyjnych.

Ważność predyktorów może być określana na podstawie miar takich jak: chi-kwadrat Pearsona, iloraz wiarygodności chi-kwadrat, V-Cramera, lambda, statystyka F i inne.

<p><strong>Wybór predyktorów</strong></p>Ocena siły wpływu predyktorów na wartości przewidywane i ich automatyczna selekcja

<p><strong>Detekcja anomalii</strong></p>Identyfikacja rekordów nietypowych w ujęciu wielowymiarowym

Detekcja anomalii

Identyfikacja rekordów nietypowych w ujęciu wielowymiarowym.

Algorytm wykrywania anomalii może analizować duże liczby zmiennych, by wykryć skupienia lub grupy podobnych rekordów. Każdy rekord jest następnie porównywany z innymi rekordami w tej samej grupie w celu wykrycia ewentualnych anomalii.

Każdemu rekordowi przypisuje się indeks anomalii, określający jak bardzo dany rekord różni się od rekordu typowego w grupie, do której jest przypisany. Wyliczany jest również wpływ każdej ze zmiennych na indeks anomalii.