Jakość powietrza w Polsce #3 – gdzie brakuje nam czujników?

Krasnal

Od jakiegoś czasu potrafimy się dobrać do danych z czujników powietrza w Polsce (sprawdź artykuły spod tagu powietrze). Potrafimy też określić, ile ich w ogóle jest i gdzie są rozmieszczone. Spróbujmy więc może określić, gdzie tych czujników jest najmniej. To znaczy, spróbujmy wyznaczyć największą czujnikową białą plamę na mapie Polski. Nie jest to zagadnienie stricte … Czytaj dalej Jakość powietrza w Polsce #3 – gdzie brakuje nam czujników?

shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu

Dźwig

Ostatnio w komentarzach coraz częściej spotykam się z opinią, że nie sztuką jest stworzyć model, ale sztuką jest (powinno?) interpretacja uzyskanych wyników w kontekście problemu, który rozwiązujemy. Z drugiej strony, są też całe kursy od niesamowitych wymiataczy (np. course.fast.ai), których motto brzmi mniej więcej - zacznij jak najszybciej, a później będziemy się wgłębiać w detale. … Czytaj dalej shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu

Analiza skupień na przykładzie algorytmu k-średnich

Gargulec

Jednym z ciekawszych, a jednocześnie nie jednym z pierwszych zagadnień, na które można natrafić w uczeniu maszynowym, jest analiza skupień. Brzmi to trochę groźnie, ale tak naprawdę chodzi o sensowne grupowanie obserwacji w celu uzyskania jakiejś dodatkowej informacji. Analiza skupień to jedna z dziedzin uczenia nienadzorowanego. Dziedzina ta należy do uczenia nienadzorowanego, gdyż nie mamy … Czytaj dalej Analiza skupień na przykładzie algorytmu k-średnich

Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R

Zamek

Jakiś czas temu pisałem o narzędziach Pythonowych służących do zaglądania do wnętrza modelu predykcyjnego. Poświęciłem temu tematowi trzy artykuły (ELI5 i czarne pudełka, Partial Dependence Plots, Co to jest SHapley Additive exPlanations (SHAP)?) i pewnie poświęcę jeszcze kilka. Ostatnio natrafiłem na podobne narzędzie, ale przygotowane dla języka R. Narzędzie to nazywa się auditor i chociaż … Czytaj dalej Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R

SQLite i Python – czy warto?

Kwiaty

Nie da się za dużo mówić (i pisać) o danych bez poruszenia tematu baz danych. Faktem jest, że sama koncepcja baz danych jest równie stara, jak koncepcja uczenia maszynowego. Jest też w mojej skromnej opinii równie, jeśli nie bardziej rozbudowana. Może warto więc zastanowić się, jak możemy wykorzystać bazę danych w projektach data science, które … Czytaj dalej SQLite i Python – czy warto?

Jak zacząć działać w uczeniu maszynowym

Pałac Kultury

Okej, przeczytałeś więc gdzieś (może u mnie?) jakiś artykuł, nowinkę albo samouczek związany z uczeniem maszynowym. Przyszło Ci do głowy, że uczenie maszynowe to fajna sprawa, hype jest i hajs się zgadza. Postanowiłeś więc sprawdzić, na czym to w ogóle polega. Zrobiłeś własne badania pt. "o co tu chodzi" i doszedłeś do własnych wniosków. Wnioski … Czytaj dalej Jak zacząć działać w uczeniu maszynowym

Co to jest SHapley Additive exPlanations (SHAP)?

Plaża

Drogi czytelniku, być może miałeś kiedyś do czynienia z Pythonowym modułem SHAP. Jeśli nie, to nic straconego, bo w tym artykule pokażę jak go użyć do wytłumaczenia wyniku predykcji. Nie musisz się też dziwić, jeśli o nim nie słyszałeś. Ja też dowiedziałem się o nim całkiem niedawno i to przypadkiem przy okazji oglądania jakiegoś video … Czytaj dalej Co to jest SHapley Additive exPlanations (SHAP)?

Partial Dependence Plots

Panorama

Jakiś czas temu poznaliśmy ciekawy sposób na określanie ważności kolumn w ramce danych - permutation importance. Dzięki tej metodzie możemy określić ważność kolumn nawet w modelach należących do kategorii black box - czyli takich, które nie oferują przejrzystego dla człowieka procesu podejmowania decyzji. Jako efekt naszej pracy otrzymujemy wytrenowany model z jakimś wynikiem score. Jesteśmy … Czytaj dalej Partial Dependence Plots

Histogramy

Ścieżka

Histogramy to jedno z najbardziej podstawowych narzędzi każdego badacza danych. Są proste w zrozumieniu, tanie w wykonaniu i niosą ze sobą bardzo przydatne informacje. Szczególnie przydatne są do zrozumienia uzyskanych wyników bądź przyglądania się zebranym danym. O histogramach zaczyna się mówić już w liceum i niestety wiele osób na tym etapie podchodzi do nich jak … Czytaj dalej Histogramy

ELI5 i czarne pudełka

Staw

Gdy tworzymy model, któremu jest bardzo blisko do typowego białego pudełka (np. drzewo decyzyjne), to bardzo łatwo jest nam zorientować się, które cechy naszych obserwacji są istotne. Nieco inaczej sprawa ma się w modelach, które bardziej przypominają czarne pudełka. Modele takie, mimo iż niczego nie ukrywają, nie są w stanie wskazać nam które informacje były dla … Czytaj dalej ELI5 i czarne pudełka