ELI5 i czarne pudełka

Gdy tworzymy model, któremu jest bardzo blisko do typowego białego pudełka (np. drzewo decyzyjne), to bardzo łatwo jest nam zorientować się, które cechy naszych obserwacji są istotne. Nieco inaczej sprawa ma się w modelach, które bardziej przypominają czarne pudełka. Modele takie, mimo iż niczego nie ukrywają, nie są w stanie wskazać nam które informacje były dla … Czytaj dalej ELI5 i czarne pudełka →

Nieco więcej o pozbywaniu się niepotrzebnych danych

Jakiś czas temu pisałem o rozpoznawaniu najważniejszych kolumn w ramce danych (artykuł Które kolumny są dla nas najważniejsze?). Rozpisałem się tam między innymi o niepotrzebnych kosztach wynikających ze składowania i używania wszystkich możliwych danych. Nie podałem tam jednak żadnych konkretnych przykładów. Zabrakło liczb i przykładów. W tym artykule nadrabiam zaległości. Zbiór danych Zbiór danych, który … Czytaj dalej Nieco więcej o pozbywaniu się niepotrzebnych danych →

Które kolumny są dla nas najważniejsze?

Dzięki R i Pythonowi nie jest problemem uruchomienie funkcji modelującej. Fakt, zdobycie danych i przerobienie ich na ramkę danych może być trudne i żmudne. Jednakże jest to często tylko problem techniczny. Uruchamiamy więc nasze funkcje modelujące i z niecierpliwością czekamy na wyniki. Często tak właśnie wygląda całość naszego procesu. Wiemy, że im więcej danych mamy … Czytaj dalej Które kolumny są dla nas najważniejsze? →