Subiektywna recenzja niektórych programów statystycznych
Tytułem wstępu
Na studiach ćwiczenia oparte są zwykle o bardzo proste pakiety oprogramowania. Najpopularniejsze to: GRETL (dużo informacji na stronie www.kufel.torun.pl), Statistica (gdzie ekonometria pojawia się "przy okazji") a czasem używa się jedynie Excela. W mojej katedrze używamy DEMS, którego obsługa nie odbiega od zwykłego Excela ale posiada dodatkowe funkcje. Jednak to wszystko to bardzo duże uproszczenie na potrzeby dydaktyki. O ile nasza próba jest nieliczna i nie potrzebujemy używać najnowszych metod estymacji czy testów jest ok...
Ale w praktyce te programy nie są odpowiednie.

Typowa sytuacja nr 1: szacowanie prawdopodobieństwa niewypłacalności klienta. Bank ma do dyspozycji bazę danych o 20 tysiącach kredytów. Z tego musimy wybrać np. wyłącznie osoby fizyczne w wieku powyżej 20 lat, a następnie wylosować próbkę 5 tysięcy kredytów, tak aby udział kredytów niespłaconych był conajmniej 15%... Możemy użyć bazy danych i odfiltrować jakoś, ale i tak pozostaje problem 5000 obserwacji pomnożonych przez 20-30 zmiennych (wiek, płeć, kwota kredytu itp.). Na koniec musimy "tylko" oszacować parametry modelu logitowego :)
Typowa sytuacja nr 2: mamy dane ankietowe - badanie atrakcyjności różnych produktów. Próba reprezentatywna ok. 1100 osób. Z tym, że każda ankieta to ponad 100 pól przy czym niektóre zawierają informacje tekstowe (potencjalnie ważne gdy dana obserwacja jest bardzo nietypowa!). Znów rozmiary bazy są zbyt duże dla większości programów. A do tego dochodzi zleceniodawca, który nagle dzwoni i prosi o te same analizy ale powtórzone dla 3-4 grup docelowych (np. kobiety w wieku 20-25 lat, bezdzietni mężczyźni itd.).
Typowa sytuacja nr 3: próba niezbyt liczna, ale musimy użyć nowych metod. Czasem jest to rzeczywiście potrzebne, a czasem tylko chcemy błysnąć ich znajomością. Tak czy owak chcemy użyć procedury wymyślonej trzy lata temu. Nie znajdziemy jej w standardowych pakietach, nie mówiąc już o tych zupełnie szkolnych!

Potrzebujemy naprawdę mocnego oprogramowania. Mocnego - czyli jakiego?

1. Możliwość przetwarzania naprawdę dużych stert danych. W mikroekonometrii próby liczące 50 tysięcy obserwacji nie należą do rzadkości (np. dane jednostkowe BAEL). Przydadzą się także funkcje wykonywania wszystkich poleceń dla przeróżnie zdefiniowanych podprób (np. "regresja Y=a+bX wyłącznie dla bezdzietnych mężczyźn albo dla kobiet o dochodzie wyższym niż 1500 zł/mies.) - nie musimy wówczas za każdą zmianą próby wracać do bazy danych i "wycinać" niepotrzebne obserwacje.
2. Łatwość automatyzacji obliczeń, np. uruchomienie tego samego zestawu analiz kolejno dla każdego z województw, dziesięciu grup wiekowych czy dochodowych... Zyskujemy przy okazji możliwość pracy wsadowej, tj. operowania na surowym zestawie danych a wszelkie przekształcenia danych i analizy są uruchamiane każdorazowo przez zaprogramowany plik. Dzięki temu nie zepsujemy wyjściowej bazdy danych (modyfikujemy tylko plik wsadowy - jeśli się pomyliśmy i przez pomyłkę kazaliśmy policzyć kwadraty zmiennej X to przy pomyłkę możemy szybko zauważyć i cofnąć; normalnie możemy tego nie zauważyć, a gdy w bazie były liczby ujemne, taka pomyłkowo wykonana operacja powoduje utratę informacji nawet gdy zdecydujemy się z powrotem wyciągnąć pierwiastek!).
3. Dostęp do wielu metod estymacji, testów często pisanych przez osoby nie związane zawodowo z oprogramowaniem (np. osobę, która dany test wymyśliła). Często takich procedur nie ma, więc przyda się funkcja samodzielnego zaprogramowania procedury... Czasem ta metoda to poprawka na krótkie próby, przydatna np. dla procedury Johansena czy estymatorów dynamicznych modeli przekrojowo-czasowych.

Do takich "poważnych" pakiety zaliczyłbym: STATA, Gauss, OxMetrics oraz SAS. Początek dyskusji o tych programach, zainicjowanej przeze mnie, znajduje się tutaj:
O "poważnych" pakietach - na pl.sci.ekonomiczne.

Krótki komentarz Marka Raczko: do podanych sytuacji nr 1 i 2 poleciłbym STATA, do sytuacji, zwłaszcza do szeregów czasowych nr 3 GAUSS lub Matlab (z uwagi na duże środowisko ludzi tworzących procedury). STATA jest na początku trudna do nauczenia, chociaż warto bo ma duże możliwoci. Nie jest to jednak pakiet dla ludzi zaraz po kursie ekonometrii - tutaj polecałbym coś pośredniego - czyli EViews. Do wad STATY zaliczyłbym praktycznie brak możliwości obsługi graficznej (zobacz ładne, choć nie zawsze funkcjonalne okienka EViews 6: EViews zrzut ekranu).

Mój komentarz: jak dla mnie taki etapy pośrednie typu EViews to strata czasu. Polecałbym od razu zacząć od czegoś lepszego. Wypowiem się w przedmiocie STATY, który to program dobrze znam. Bardzo dobre do dużych baz danych. Według niektórych tylko do dużych, z bardzo dużymi (kilkadziesišt zmiennych razy >50 tys. obserwacji) sobie nie radzi tak dobrze (częściowo potwierdzam, chociaż nie mam porównania np. z SAS). Dobrze oprogramowane metody dla danych przekrojowo-czasowych, różne odmiany modeli logitowych - czyli doskonały do mikroekonometrii, chociaż ja używam do wszystkiego. Inne zalety: możliwość pisania plików wsadowych, elastycznego łšczenia procedur (np. repróbkowanie bootstrap czy jacknife można dołączyć do prawie każdej komendy, przez co zyskujemy modyfikacje, które normalnie nie były przewidziane)... WADY: (1) konieczność zakupu dokumentacji przy pierwszej licencji. Dokumentacja kosztuje sporo, a tak naprawdę jest wydrukiem help, poza tym niewiele pomaga. Jednak dla studnetów wersja 6 kosztuje tylko ok. 40 USD: zobacz ceny i poza limitem obserwacji (max. 1500) nie zawiera prawie żadnych ograniczen zobacz opis. (2) brak możliwości wpisywania do procedur funkcji trasnformujących. W EViews regresja logliniowa jest prosta, np.: log(y)=c(1)+c(2)*log(x). W Stacie trzeba wygenerować logarytmy a potem wykonać regresję. (3) nie wiadomo czemu bardzo długo robi nawet banalne wykresy!.
Na tej stronie znajdziesz największy zbiór do STATY, zobacz też inne serwery z procedurami.

Rekomendacje Marka Wielgosza: "Wybór pakietu statystycznego zalezy bardzo od tego czego oczekujesz od oprogramowania. Jesli program potrzebny Ci jest to szybkiego przeliczenia standardowych rzeczy to pewnie EViews Ci wystarczy. Jesli natomiast jestes doktorantem albo po prostu tworzysz cos mniej typowego to EViews i wszystkie programy typu "click, click" beda zlym wyborem. Wtedy bym bardzo polecal R. Praktycznie nie ma ograniczen. W dodatku zawsze masz kontrole nad tym co i jak jest liczone. Prosty jezyk, ogromne mozliwosci! Istnieja oczywiscie wyjatki. Na przyklad zajmujesz sie dynamiczna makroekonomia. Moim zdaniem nie ma wtedy lepszego wyboru niz matlab, poniewaz wiele rzeczy w matlabie juz napisano. Wszystko zalezy od tego czego oczekujesz od programu."

PS. Ostatnio wpadł mi ręce darmowy pakiet J-Multi - www.jmulti.de. Do time series naprawdę dobry na poczštek (m.in. VAR, ARIMA, SVAR, VECM, SVECM i GARCH). Najbardziej boli brak możliwości programowania i dodawania procedur. Osobiście brakuje mi też MZI/GMM, no i obsługa choć "klikana" to (troszeczkę) nieintuicyjna. Dla studentów oraz do dydaktyki - super sprawa! A skoro nic nie kosztuje warto spróbować...


Jeśli drogi czytelniku masz jakieś doświadczenia i uwagi - napisz do mnie - ciekawe komentarze z chęcią będę publikował na tej stronie! Jak widać wybór nie jest taki prosty! Zatem nie znajdziesz tutaj, drogi Czytelniku gotowej recepty a raczej "za" i "przeciw"... Tutaj znajdziesz krótki opis pakietów ekonometrycznych (w języku angielskim). Suche opisy, ale warto zerknšć. Agnieszka Leszczynska podesłała link do podobnej dyskusji pakiety ekonometryczne - dyskusja - dziękujemy i liczymy na recenzję STATA :)

Zrzuty ekranu ze Staty
Widok nr 1 - STATA zaraz po uruchomieniu

Widok nr 2 - STATA w akcji

  • Aby powrócić na główną stronę kliknij tu…