Histogramy

Ścieżka

Histogramy to jedno z najbardziej podstawowych narzędzi każdego badacza danych. Są proste w zrozumieniu, tanie w wykonaniu i niosą ze sobą bardzo przydatne informacje. Szczególnie przydatne są do zrozumienia uzyskanych wyników bądź przyglądania się zebranym danym. O histogramach zaczyna się mówić już w liceum i niestety wiele osób na tym etapie podchodzi do nich jak … Czytaj dalej Histogramy

ELI5 i czarne pudełka

Staw

Gdy tworzymy model, któremu jest bardzo blisko do typowego białego pudełka (np. drzewo decyzyjne), to bardzo łatwo jest nam zorientować się, które cechy naszych obserwacji są istotne. Nieco inaczej sprawa ma się w modelach, które bardziej przypominają czarne pudełka. Modele takie, mimo iż niczego nie ukrywają, nie są w stanie wskazać nam które informacje były dla … Czytaj dalej ELI5 i czarne pudełka

Auto_ml, czyli kolejny moduł do automatyzacji uczenia maszynowego

ludziki

Jeżeli zastanowimy się nad procesem uczenia maszynowego, to zauważymy, że spora jego część powtarza się. Na przykład może to być wybieranie hiperparametrów albo testowanie różnych funkcji modelujących. Fakt, całości nie możemy za bardzo zautomatyzować, ale wspomniane elementy nadają się do tego całkiem dobrze. Szczególnie że często jest to cykl - zmiana, uruchomienie, czekanie kilka minut … Czytaj dalej Auto_ml, czyli kolejny moduł do automatyzacji uczenia maszynowego

Nieco więcej o pozbywaniu się niepotrzebnych danych

mewa

Jakiś czas temu pisałem o rozpoznawaniu najważniejszych kolumn w ramce danych (artykuł Które kolumny są dla nas najważniejsze?). Rozpisałem się tam między innymi o niepotrzebnych kosztach wynikających ze składowania i używania wszystkich możliwych danych. Nie podałem tam jednak żadnych konkretnych przykładów. Zabrakło liczb i przykładów. W tym artykule nadrabiam zaległości. Zbiór danych Zbiór danych, który … Czytaj dalej Nieco więcej o pozbywaniu się niepotrzebnych danych

Jak jedną linijką przygotować sobie środowisko R z ggplot2?

Tęcza

Pewnego razu wybrałem się na MeetUp którego głównym tematem było robienie wizualizacji w R przy pomocy biblioteki ggplot2. Na spotkaniu nie było aż tak dużo osób, jak się spodziewałem (ciekawe dlaczego, przecież ktoś rozdaje darmową wiedzę), więc w kameralnym gronie przystąpiliśmy do przygotowywania sobie środowiska pracy. Po co nam było środowisko pracy? Otóż spotkanie to … Czytaj dalej Jak jedną linijką przygotować sobie środowisko R z ggplot2?

ELI5 i białe pudełka

klocki

Dzisiaj będzie krótko. Chciałbym po prostu pokazać wam proste narzędzie ELI5. Podstawowym sposobem na ocenę naszego świeżo stworzonego modelu jest jego sprawdzenie na pierwotnie dla niego ukrytym zbiorze danych. Jeśli dane podzieliliśmy na stałe zbiory, to możemy w ten sposób całkiem długo testować swoje modele i porównywać wyniki (pokazywałem to między innymi tutaj). Jest to … Czytaj dalej ELI5 i białe pudełka

Które kolumny są dla nas najważniejsze?

Kolumny

Dzięki R i Pythonowi nie jest problemem uruchomienie funkcji modelującej. Fakt, zdobycie danych i przerobienie ich na ramkę danych może być trudne i żmudne. Jednakże jest to często tylko problem techniczny. Uruchamiamy więc nasze funkcje modelujące i z niecierpliwością czekamy na wyniki. Często tak właśnie wygląda całość naszego procesu. Wiemy, że im więcej danych mamy … Czytaj dalej Które kolumny są dla nas najważniejsze?

Jak nie zabłądzić w lesie … losowym?

Drzewo decyzyjne to jeden z ciekawszych i użytecznych algorytmów uczenia maszynowego. Jest bardzo intuicyjny i łatwy w interpretacji. Jednakże jego głównym mankamentem jest to, że nie daje dobrych wyników. Drzewo decyzyjne jest też bardzo czułe na małe zmiany w zbiorze treningowym. Często również nie wykorzystuje całości informacji zawartej w poszczególnych kolumnach. Fajnie byłoby gdyby udało … Czytaj dalej Jak nie zabłądzić w lesie … losowym?

Ile tak naprawdę są warte nasze modele?

Ruiny zamku

Całkiem nieźle idzie nam przetwarzanie danych do postaci ramki danych. Sprawnie wykorzystujemy Pythona i różne moduły, które oferują funkcje modelujące. Dzielimy dane na zbiory treningowe i testowe. Uzyskujemy całkiem niezłe wyniki i zaczynamy odczuwać zadowolenie. Ale czy aby na pewno jest to już ten moment? Czy aby na pewno stworzyliśmy coś, co ma sens? Coś, … Czytaj dalej Ile tak naprawdę są warte nasze modele?

Tuning hiperparametrów na przykładzie drzewa decyzyjnego

Fontanna

W jednym z poprzednich artykułów pokazałem, na czym polega proces budowy drzewa decyzyjnego. Pokazałem również, nad jakimi hiperparametrami warto się pochylić przy budowie takiego drzewa. W tym artykule chciałem pokazać jak ugryźć proces wyboru wartości hiperparametrów w sposób praktyczny. Zbiór danych Aby móc przeprowadzić to ćwiczenie przydałby nam się jakiś zbiór danych. Do tego celu … Czytaj dalej Tuning hiperparametrów na przykładzie drzewa decyzyjnego