shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu

Dźwig

Ostatnio w komentarzach coraz częściej spotykam się z opinią, że nie sztuką jest stworzyć model, ale sztuką jest (powinno?) interpretacja uzyskanych wyników w kontekście problemu, który rozwiązujemy. Z drugiej strony, są też całe kursy od niesamowitych wymiataczy (np. course.fast.ai), których motto brzmi mniej więcej - zacznij jak najszybciej, a później będziemy się wgłębiać w detale. … Czytaj dalej shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu

Analiza skupień na przykładzie algorytmu k-średnich

Gargulec

Jednym z ciekawszych, a jednocześnie nie jednym z pierwszych zagadnień, na które można natrafić w uczeniu maszynowym, jest analiza skupień. Brzmi to trochę groźnie, ale tak naprawdę chodzi o sensowne grupowanie obserwacji w celu uzyskania jakiejś dodatkowej informacji. Analiza skupień to jedna z dziedzin uczenia nienadzorowanego. Dziedzina ta należy do uczenia nienadzorowanego, gdyż nie mamy … Czytaj dalej Analiza skupień na przykładzie algorytmu k-średnich

Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R

Zamek

Jakiś czas temu pisałem o narzędziach Pythonowych służących do zaglądania do wnętrza modelu predykcyjnego. Poświęciłem temu tematowi trzy artykuły (ELI5 i czarne pudełka, Partial Dependence Plots, Co to jest SHapley Additive exPlanations (SHAP)?) i pewnie poświęcę jeszcze kilka. Ostatnio natrafiłem na podobne narzędzie, ale przygotowane dla języka R. Narzędzie to nazywa się auditor i chociaż … Czytaj dalej Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R

Jakość powietrza w Polsce #2 – Rok 2017 oczami oddychającego Polaka

Choinka

Rok 2018 zbliża się powoli ku końcowi. Jest to często czas podsumowań i refleksji. Pomyślałem więc, że również pozwolę sobie na małą refleksję odnośnie do jakości powietrza w Polsce w roku 2017 (sic!). Dlaczego rok 2017? Bo akurat w momencie pisana tego artykułu jest to najnowsza paczka danych zawierająca archiwalne pomiary dostępna na stronie GIOŚ. … Czytaj dalej Jakość powietrza w Polsce #2 – Rok 2017 oczami oddychającego Polaka

SQLite i Python – czy warto?

Kwiaty

Nie da się za dużo mówić (i pisać) o danych bez poruszenia tematu baz danych. Faktem jest, że sama koncepcja baz danych jest równie stara, jak koncepcja uczenia maszynowego. Jest też w mojej skromnej opinii równie, jeśli nie bardziej rozbudowana. Może warto więc zastanowić się, jak możemy wykorzystać bazę danych w projektach data science, które … Czytaj dalej SQLite i Python – czy warto?

Jak zacząć działać w uczeniu maszynowym

Pałac Kultury

Okej, przeczytałeś więc gdzieś (może u mnie?) jakiś artykuł, nowinkę albo samouczek związany z uczeniem maszynowym. Przyszło Ci do głowy, że uczenie maszynowe to fajna sprawa, hype jest i hajs się zgadza. Postanowiłeś więc sprawdzić, na czym to w ogóle polega. Zrobiłeś własne badania pt. "o co tu chodzi" i doszedłeś do własnych wniosków. Wnioski … Czytaj dalej Jak zacząć działać w uczeniu maszynowym

Co to jest SHapley Additive exPlanations (SHAP)?

Plaża

Drogi czytelniku, być może miałeś kiedyś do czynienia z Pythonowym modułem SHAP. Jeśli nie, to nic straconego, bo w tym artykule pokażę jak go użyć do wytłumaczenia wyniku predykcji. Nie musisz się też dziwić, jeśli o nim nie słyszałeś. Ja też dowiedziałem się o nim całkiem niedawno i to przypadkiem przy okazji oglądania jakiegoś video … Czytaj dalej Co to jest SHapley Additive exPlanations (SHAP)?

Jakość powietrza w Polsce #1 – (re)Start

Fajerwerki

W 2017 roku zacząłem się interesować tematem jakości powietrza. Pchnął mnie do tego fragment jakiegoś materiału w jakimś programie informacyjnym. Nie pamiętam, o co w nim dokładnie chodziło, pamiętam jednak, że wydawało mi się, że dość mocno w nim manipulują, jeśli chodzi o interpretację danych. Było słabo, a prowadząca mówiła, że jest dobrze. Poczułem się … Czytaj dalej Jakość powietrza w Polsce #1 – (re)Start

Partial Dependence Plots

Panorama

Jakiś czas temu poznaliśmy ciekawy sposób na określanie ważności kolumn w ramce danych - permutation importance. Dzięki tej metodzie możemy określić ważność kolumn nawet w modelach należących do kategorii black box - czyli takich, które nie oferują przejrzystego dla człowieka procesu podejmowania decyzji. Jako efekt naszej pracy otrzymujemy wytrenowany model z jakimś wynikiem score. Jesteśmy … Czytaj dalej Partial Dependence Plots

Histogramy

Ścieżka

Histogramy to jedno z najbardziej podstawowych narzędzi każdego badacza danych. Są proste w zrozumieniu, tanie w wykonaniu i niosą ze sobą bardzo przydatne informacje. Szczególnie przydatne są do zrozumienia uzyskanych wyników bądź przyglądania się zebranym danym. O histogramach zaczyna się mówić już w liceum i niestety wiele osób na tym etapie podchodzi do nich jak … Czytaj dalej Histogramy