Pradžia / Jaunimo politika / Duomenų analizė jaunimui: duomenų ir statistikos pagrindai

Duomenų analizė jaunimui: duomenų ir statistikos pagrindai

Kodėl duomenys – tai naujoji supervalstybė?

Įsivaizduok tokią situaciją: tavo draugas teigia, kad „visi jauni žmonės dabar skaito mažiau knygų nei prieš dešimt metų.” Gal taip ir yra. O gal ne. Kaip patikrinti? Kaip žinoti, ar tai tiesa, ar tiesiog jausmas, kurį sustiprino kelios pokalbio minutės? Čia ir atsiranda duomenų analizė – ne kaip kažkoks nuobodus dalykas iš matematikos pamokos, o kaip tikras įrankis, leidžiantis atskirti faktus nuo nuomonių.

Gyvename pasaulyje, kuriame kiekvieną dieną sukuriama apie 2,5 kvintiliono baitų duomenų. Tai tiek daug, kad net sunku įsivaizduoti. Kiekvienas tavo „like’as” socialiniame tinkle, kiekvienas pirkimas internetinėje parduotuvėje, kiekvienas žingsnis su išmaniuoju laikrodžiu – visa tai yra duomenys. Ir kas moka juos skaityti, tas turi tikrą pranašumą – tiek darbo rinkoje, tiek kasdieniniame gyvenime.

Bet nereikia iš karto galvoti apie karjerą ar rimtus dalykus. Duomenų analizė gali padėti net tada, kai nori išsiaiškinti, kurį Netflix serialą verta žiūrėti, ar kada geriausia pirkti skrydžio bilietus, kad sutaupytum. Tai tiesiog būdas mąstyti aiškiau.

Duomenys vs. informacija vs. žinios – kuo jie skiriasi?

Prieš nerdamas giliau, verta suprasti vieną pagrindinį dalyką, kurio dažnai nemoko mokykloje: duomenys, informacija ir žinios – tai ne tas pats.

Duomenys – tai neapdoroti faktai. Pavyzdžiui: „23, 45, 12, 67, 89.” Patys savaime jie nieko nesako. Tai tiesiog skaičiai.

Informacija atsiranda tada, kai duomenims suteikiamas kontekstas. Jei pasakysiu, kad tie skaičiai yra studentų amžiai tam tikroje grupėje, jie jau kažką reiškia. Matai, kad grupė jauna, kad amžius svyruoja.

Žinios – tai tada, kai informaciją naudoji sprendimams priimti. Pavyzdžiui, žinodamas grupės amžiaus vidurkį, gali nuspręsti, kokio lygio kursą jiems pasiūlyti.

Ši hierarchija svarbi, nes dažnai žmonės painioja duomenis su žiniomis. Pamatai vieną statistiką ir jau daro išvadas. Bet vienas skaičius – dar ne žinojimas. Reikia konteksto, palyginimo, supratimo.

Praktinis patarimas: kai kitą kartą skaitai naujieną su kuria nors statistika, paklausk savęs – ar tai tik duomenys, ar jau informacija? Ar yra palyginimas? Ar yra kontekstas? Tai jau pirmasis žingsnis į kritinį mąstymą.

Statistikos pagrindai be galvos skausmo

Statistika daugeliui skamba kaip kažkas, dėl ko reikia kentėti egzaminų metu ir po to pamiršti. Bet iš tikrųjų kelios pagrindinės sąvokos gali pakeisti tai, kaip matai pasaulį.

Vidurkis (mean) – tai tikriausiai žinomiausias statistikos terminas. Susumuoji visas reikšmes ir daliji iš jų skaičiaus. Bet čia slypi spąstai: vidurkis gali labai apgauti. Jei penkiems žmonėms uždirba 1000 eurų, o vienas uždirba 100 000 eurų, vidurkis bus apie 17 500 eurų. Bet ar tai atspindi tikrovę? Tikrai ne.

Mediana – tai vidurinė reikšmė, kai visos reikšmės išdėstomos eilės tvarka. Tame pačiame pavyzdyje mediana būtų 1000 eurų, kas daug tiksliau atspindi situaciją. Todėl kalbant apie atlyginimus ar nekilnojamojo turto kainas, ekonomistai dažnai naudoja medianą, o ne vidurkį.

Moda – tai dažniausiai pasikartojanti reikšmė. Jei parduotuvė nori žinoti, kokio dydžio batus pirkti daugiausiai, jai reikia modos, ne vidurkio.

Standartinis nuokrypis – šis terminas skamba baisiai, bet idėja paprasta: kiek duomenys „išsiblaško” aplink vidurkį. Jei visi studentai gavo panašius pažymius, standartinis nuokrypis mažas. Jei vieni gavo dešimtukus, kiti – dvejetus, jis didelis. Tai parodo, ar grupė vienalytė, ar labai skirtinga.

Kodėl tai svarbu praktiškai? Tarkime, skaitai apie naują dietą, kuri „vidutiniškai” padėjo numesti 10 kg. Bet jei standartinis nuokrypis yra 15 kg, tai reiškia, kad vieni numeto 25 kg, o kiti priaugo 5 kg. Vidurkis nieko nereiškia be šio konteksto.

Koreliacijos ir priežastingumo painiava – klasikinė klaida

Tai tikriausiai svarbiausia tema visoje duomenų analizėje, ir kartu labiausiai klaidinanti. Yra toks posakis anglų kalba: „Correlation does not imply causation” – koreliacija nereiškia priežastingumo. Bet ką tai reiškia?

Koreliacija – tai ryšys tarp dviejų dalykų. Jei pastebima, kad šaltyse šalyse žmonės valgo daugiau šokolado, tai koreliacija. Bet ar šokoladas sukelia šaltį? Žinoma, ne. Tiesiog šaltuose kraštuose žmonės linkę valgyti daugiau kaloringų produktų.

Yra puiki svetainė „Spurious Correlations”, kurioje mokslininkas Tyleris Vigenas surinko absurdiškus koreliacijos pavyzdžius. Pavyzdžiui, JAV baseinuose paskendusių žmonių skaičius labai koreliuoja su Nicolaso Cage’o filmų skaičiumi per metus. Akivaizdu, kad vienas nesukelia kito – tai tiesiog sutapimas.

Bet kodėl tai svarbu jaunimui? Nes socialiniai tinklai pilni tokių klaidingų išvadų. „Žmonės, kurie valgo pusryčius, geriau mokosi” – gal taip, bet gal tiesiog tie, kurie valgo pusryčius, turi stabilesnę šeimą ir daugiau išteklių, o tai ir lemia geresnius rezultatus? Pusryčiai čia gali būti tik koreliatas, ne priežastis.

Kaip atskirti? Ieškoti mechanizmo – loginio paaiškinimo, kaip vienas dalykas galėtų sukelti kitą. Ir ieškoti kontroliuojamų eksperimentų, kur visi kiti veiksniai išlaikomi vienodi. Tai ir yra moksliniai tyrimai savo esme.

Kaip skaityti grafikus ir nepasiklysti

Grafikas gali papasakoti istoriją. Bet tas pats grafikas gali ir apgauti – priklausomai nuo to, kaip jis sudarytas. Tai ne sąmokslo teorija, tai tiesiog realybė, kurią verta žinoti.

Keletas dalykų, į kuriuos visada reikia atkreipti dėmesį:

Y ašies pradžia. Jei grafikas rodo augimą, bet Y ašis prasideda ne nuo nulio, o nuo, tarkime, 90, net mažas pokytis atrodys dramatiškas. Politikai ir žiniasklaida tai naudoja nuolat. Pažiūrėk, ar ašis prasideda nuo nulio – jei ne, pagalvok, kodėl.

Laikotarpis. Jei rodomas tik trumpas laikotarpis, gali susidaryti klaidingas įspūdis. Akcijų kaina gali atrodyti kaip nuolat kylanti, jei rodi tik paskutinius tris mėnesius, nors per dešimt metų ji svyravo labai stipriai.

Absoliutūs vs. santykiniai skaičiai. „Nusikalstamumas išaugo 100 procentų!” skamba baisiai. Bet jei praėjusiais metais buvo 2 atvejai, o šiais – 4, tai absoliučiai labai mažas pokytis. Visada klausk: kiek tai absoliučiais skaičiais?

Imties dydis. „80 procentų apklaustųjų sutinka” – bet kiek žmonių buvo apklausta? Jei 10, tai statistiškai bevertė informacija. Jei 10 000 – jau kitas reikalas.

Praktinis patarimas: prieš reaguodamas į bet kokį grafiką ar statistiką, skirkite 30 sekundžių ir pažiūrėk į šiuos keturis dalykus. Tai taps įpročiu greičiau, nei manai.

Įrankiai, kuriuos gali pradėti naudoti jau šiandien

Gerai, teorija – viena. Bet kaip iš tikrųjų pradėti dirbti su duomenimis? Džiugina tai, kad nereikia jokių specialių programų ar brangių kursų. Pradėti galima su tuo, kas jau yra po ranka.

Google Sheets arba Excel – tai pirmasis žingsnis. Jei moki sudėti skaičius į lentelę ir naudoti paprastas formules kaip AVERAGE, MEDIAN, COUNT – jau esi pradedantysis duomenų analitikas. Rimtai. Daugelis realių verslo sprendimų priimami remiantis paprastomis Excel lentelėmis.

Google Data Studio (dabar Looker Studio) – nemokamas įrankis vizualizacijoms kurti. Gali prijungti duomenis iš Google Sheets ir per kelias minutes sukurti gražius grafikus. Labai tinka, jei nori pristatyti duomenis kitiems.

Kaggle – tai platforma, kur galima rasti tūkstančius nemokamų duomenų rinkinių ir mokytis iš kitų žmonių projektų. Čia yra duomenų apie viską – nuo „Titanico” keleivių iki pasaulio laimingumo indeksų. Puiki vieta praktikuotis.

Statista – jei reikia statistikos konkrečia tema, ši svetainė yra kaip enciklopedija. Dalis turinio mokama, bet daug kas prieinama nemokamai. Labai naudinga rašant referatus ar ieškant faktų.

Python arba R – tai jau rimtesni įrankiai, bet jei turi laiko ir noro, verta mokytis. Python ypač populiarus, nes jis universalus – tinka tiek duomenų analizei, tiek programavimui apskritai. Yra daugybė nemokamų kursų „Coursera”, „edX” ar tiesiog YouTube.

Pradėk nuo mažo: paimk bet kokius duomenis, kurie tau įdomūs – galbūt savo išlaidas per mėnesį, mėgstamų muzikantų srautinio klausymo statistiką, ar sporto komandos rezultatus – ir pabandyk juos sudėti į lentelę. Apskaičiuok vidurkį, medianą, nubraižyk grafiką. Tai jau yra duomenų analizė.

Duomenų etika – apie ką retai kalba

Yra dar viena pusė, apie kurią dažnai pamirštama kalbant apie duomenis – etika. Ir tai ne kažkoks abstraktus filosofinis klausimas. Tai labai praktiškas dalykas, kuris liečia kiekvieną iš mūsų.

Kai naudoji programėlę, kuri seka tavo bėgimo maršrutus, tu duodi duomenis. Kai užsiregistruoji naujam servisui su „Google” paskyra, tu duodi duomenis. Klausimas – ar žinai, ką su jais daro?

Privatumas – tai pirmas etikos klausimas. Duomenys apie žmones turi būti renkami tik su jų sutikimu ir naudojami tik tam tikslui, kuriam buvo surinkti. Tai skamba akivaizdžiai, bet praktikoje pažeidžiama nuolat. Cambridge Analytica skandalas, kai „Facebook” vartotojų duomenys buvo panaudoti politinėms kampanijoms be aiškaus sutikimo, yra klasikinis pavyzdys.

Algoritminiai šališkumai – tai dar sudėtingesnė tema. Dirbtinio intelekto sistemos mokosi iš istorinių duomenų. Jei tie duomenys atspindi praeities diskriminaciją (pavyzdžiui, tam tikrų grupių žmonės istoriškai gaudavo mažesnes paskolas), algoritmas išmoks tą diskriminaciją atkartoti. Tai ne teorija – tai jau dokumentuoti atvejai JAV teismų sistemoje, kur algoritmai prognozuodavo recidyvizmo tikimybę ir buvo šališki tam tikrų rasių atžvilgiu.

Duomenų manipuliacija – tai sąmoningas duomenų iškraipymas, siekiant patvirtinti norimą išvadą. Tai gali būti tyčia arba netyčia. Mokslininkai tai vadina „p-hacking” – kai bandai tiek daug skirtingų analizės būdų, kol galiausiai randi statistiškai reikšmingą rezultatą. Tai problema, su kuria mokslinis pasaulis aktyviai kovoja.

Ką gali padaryti tu? Pirma, būk atidus, kokius duomenis apie save daliniesi. Antra, kai matai statistiką, klausk – kas ją surinko ir kodėl? Ar yra interesų konfliktas? Tabako pramonės finansuoti tyrimai apie rūkymo žalą dešimtmečius rodė „neaiškius rezultatus” – ir tai nebuvo atsitiktinumas.

Kai skaičiai tampa gyvenimo dalimi – ir tai gerai

Galbūt skaitydamas šį straipsnį pagalvojai – na, tai įdomu, bet man tai nereikalinga. Aš nesirengiu tapti duomenų mokslininku. Ir tai visiškai suprantama. Bet čia yra esminis dalykas: duomenų raštingumas – tai ne profesija. Tai įgūdis, panašus į gebėjimą skaityti ar skaičiuoti.

Gyvename pasaulyje, kur politikai remiasi statistika, kur reklamos naudoja psichologinius duomenis, kad tave įtikintų pirkti, kur socialiniai tinklai optimizuoja tavo srautą pagal algoritmus, sukurtus maksimizuoti laiką, kurį praleidi platformoje. Jei nesupranti, kaip duomenys veikia, esi labiau pažeidžiamas visų šių įtakų.

Bet yra ir pozityvi pusė. Žmogus, kuris moka dirbti su duomenimis, gali priimti geresnius sprendimus – nuo asmeninių finansų iki karjeros pasirinkimo. Gali efektyviau ginčytis, nes remiasi faktais, o ne jausmais. Gali pastebėti tendencijas anksčiau nei kiti.

Pradėk nuo smulkmenų. Sekk savo išlaidas mėnesį ir pažiūrėk, kur iš tikrųjų eina pinigai – daugelis nustebsta. Pabandyk rasti duomenis apie temą, kuri tau rūpi, ir padaryk savo išvadas, prieš skaitydamas, ką kiti apie tai rašo. Kai kitą kartą kas nors pateiks statistiką pokalbyje, užduok vieną paprastą klausimą: „Iš kur šis skaičius?” Tai jau yra duomenų analizė. Ir tai jau yra supervalstybė.