Partial Dependence Plots

Panorama

Jakiś czas temu poznaliśmy ciekawy sposób na określanie ważności kolumn w ramce danych - permutation importance. Dzięki tej metodzie możemy określić ważność kolumn nawet w modelach należących do kategorii black box - czyli takich, które nie oferują przejrzystego dla człowieka procesu podejmowania decyzji. Jako efekt naszej pracy otrzymujemy wytrenowany model z jakimś wynikiem score. Jesteśmy … Czytaj dalej Partial Dependence Plots

Histogramy

Ścieżka

Histogramy to jedno z najbardziej podstawowych narzędzi każdego badacza danych. Są proste w zrozumieniu, tanie w wykonaniu i niosą ze sobą bardzo przydatne informacje. Szczególnie przydatne są do zrozumienia uzyskanych wyników bądź przyglądania się zebranym danym. O histogramach zaczyna się mówić już w liceum i niestety wiele osób na tym etapie podchodzi do nich jak … Czytaj dalej Histogramy

ELI5 i czarne pudełka

Staw

Gdy tworzymy model, któremu jest bardzo blisko do typowego białego pudełka (np. drzewo decyzyjne), to bardzo łatwo jest nam zorientować się, które cechy naszych obserwacji są istotne. Nieco inaczej sprawa ma się w modelach, które bardziej przypominają czarne pudełka. Modele takie, mimo iż niczego nie ukrywają, nie są w stanie wskazać nam które informacje były dla … Czytaj dalej ELI5 i czarne pudełka

Auto_ml, czyli kolejny moduł do automatyzacji uczenia maszynowego

ludziki

Jeżeli zastanowimy się nad procesem uczenia maszynowego, to zauważymy, że spora jego część powtarza się. Na przykład może to być wybieranie hiperparametrów albo testowanie różnych funkcji modelujących. Fakt, całości nie możemy za bardzo zautomatyzować, ale wspomniane elementy nadają się do tego całkiem dobrze. Szczególnie że często jest to cykl - zmiana, uruchomienie, czekanie kilka minut … Czytaj dalej Auto_ml, czyli kolejny moduł do automatyzacji uczenia maszynowego

Nieco więcej o pozbywaniu się niepotrzebnych danych

mewa

Jakiś czas temu pisałem o rozpoznawaniu najważniejszych kolumn w ramce danych (artykuł Które kolumny są dla nas najważniejsze?). Rozpisałem się tam między innymi o niepotrzebnych kosztach wynikających ze składowania i używania wszystkich możliwych danych. Nie podałem tam jednak żadnych konkretnych przykładów. Zabrakło liczb i przykładów. W tym artykule nadrabiam zaległości. Zbiór danych Zbiór danych, który … Czytaj dalej Nieco więcej o pozbywaniu się niepotrzebnych danych

Czym właściwie jest Machine Learning?

krzaki

Jakiś czas temu napisałem artykuł, w którym przedstawiałem moją interpretacją terminu Data Science. Teraz chciałbym zająć się moim sposobem rozumienia hasła Machine Learning, czyli po polsku: Uczenie Maszynowe. Historia Hasło Machine Learning pojawiło się po raz pierwszy w roku 1959 w publikacji Artura Samuela na temat nowego pomysłu na program do gry w warcaby. Pomysł, … Czytaj dalej Czym właściwie jest Machine Learning?

Jak jedną linijką przygotować sobie środowisko R z ggplot2?

Tęcza

Pewnego razu wybrałem się na MeetUp którego głównym tematem było robienie wizualizacji w R przy pomocy biblioteki ggplot2. Na spotkaniu nie było aż tak dużo osób, jak się spodziewałem (ciekawe dlaczego, przecież ktoś rozdaje darmową wiedzę), więc w kameralnym gronie przystąpiliśmy do przygotowywania sobie środowiska pracy. Po co nam było środowisko pracy? Otóż spotkanie to … Czytaj dalej Jak jedną linijką przygotować sobie środowisko R z ggplot2?

Książka, która zmieniła moje życie

książka analiza danych

Książka, która zmieniła moje życie - brzmi to bardzo mocno. Nie każdy z nas natrafił już na taką książkę. Może niektórzy mają kilka takich książek w swojej biblioteczce. A może niektórzy w ogóle nie czytają książek. Jesteśmy jednak świadomi, że raz na jakiś czas zdarzają się książki, które całkiem mocno mieszają w głowach i sprawiają, … Czytaj dalej Książka, która zmieniła moje życie

ELI5 i białe pudełka

klocki

Dzisiaj będzie krótko. Chciałbym po prostu pokazać wam proste narzędzie ELI5. Podstawowym sposobem na ocenę naszego świeżo stworzonego modelu jest jego sprawdzenie na pierwotnie dla niego ukrytym zbiorze danych. Jeśli dane podzieliliśmy na stałe zbiory, to możemy w ten sposób całkiem długo testować swoje modele i porównywać wyniki (pokazywałem to między innymi tutaj). Jest to … Czytaj dalej ELI5 i białe pudełka

Które kolumny są dla nas najważniejsze?

Kolumny

Dzięki R i Pythonowi nie jest problemem uruchomienie funkcji modelującej. Fakt, zdobycie danych i przerobienie ich na ramkę danych może być trudne i żmudne. Jednakże jest to często tylko problem techniczny. Uruchamiamy więc nasze funkcje modelujące i z niecierpliwością czekamy na wyniki. Często tak właśnie wygląda całość naszego procesu. Wiemy, że im więcej danych mamy … Czytaj dalej Które kolumny są dla nas najważniejsze?