Závěrečný (a vítězný) týmový projekt na Data Science & Business intelligence Academy VŠE 2019/2020.
Naším úkolem bylo najít nějaká otevřená data, vyčistit je, vyvinout klasifikační nebo regresní model, modely vyladit a interpretovat.
Vybrali jsme si veřejná data Policie ČR. Použili jsme posledních 12 let. Sloučeny všechny soubory dohromady (14 krajů x 12 měsíců x 12 let). Udělali jsme EDA, feature engineering a nakonec modelování.
Jako label jsme vybrali „Autonehoda s následky na životech“. Proto jsme vybrali klasifikační modely. Vyzkoušeli jsme různé klasifikátory, jako je logistická regrese, rozhodovací strom, náhodný les, GBT a Naive Bayes. Kvůli relativní jednoduchosti interpretace jsme skončili u logitu.
S přesností logitu 88% byl nejvýznamnějším prediktorem toho, zda jsou nehody smrtelné, „srážka s chodcem“.
References:
https://www.adastra.cz/cs/dsbi-academy-na-vse/
Podrobnosti a kód najdete v repozitáři GitHub: