Variatie en statistisch landschap
Ik weet niet hoe het u vergaat bij statistiek maar al snel duizelt het. Wat betekent een licht verhoogd risico? Wat betekent statistisch significant? Hoe hoog zijn de percentages, wat is de kans dat ik het krijg. Hoe is het gemeten? Verdomde lastig allemaal. Vandaar dat ik statistiek op een simpele manier wil benaderen. Zodat je de zin van de onzin kunt onderscheiden. Want de grap wordt weleens gemaakt en zeker niet onterecht; je hebt liegen, heel erg liegen en je hebt statistiek.
Statistiek gaat over voorkomen en de kansen dat ‘iets’ voorkomt. De kans op klimaat verandering is 100% omdat dat al aan de gang is. Hoeveel graden verwarming? Wat er precies gaat gebeuren en waar ? Dat is kansberekening.
De meeste verschijnselen of kwaliteiten kennen een normale verdeling. Dat is een Gausse curve. Een klokvorm met aan de randen weinig kans en in het midden veel. Verdelingen kennen veelal vaste percentages. Deze percentages zijn redelijk stabiel en variëren tussen twee polen met de grootste kansen zoals gezegd in het midden. Richting de polen worden de kansen kleiner.
Een voorbeeld. Ongeveer een kwart van de mensen pleegt fraude en ongeveer een kwart doet dat nooit. Daartussen is het een tussenvorm van beiden en hangt het af van de omstandigheden. Om dit te kunnen meten verdelen we ons gedrag tussen twee polen frauderen of niet frauderen. Dat doen we met alles dat we willen meten. We maken een meetlat. De kwaliteiten bewegen tussen twee uitersten. Bijvoorbeeld, intelligentie, gezondheid en schoonheid als we ze willen meten moeten we een schaal maken tussen heel intelligent/schoon/gezond en minder intelligent/schoon/gezond. Vanzelfsprekend lijkt hier meer beter dan minder.
Een individueel mens kan niet overal goed in zijn daar zit nu juist de reden volgens mij dat het leven zorgt voor variatie binnen de soort en variatie in soorten. De omstandigheden veranderen en wil een soort overleven hebben ze variatie nodig om zich te kunnen aanpassen. Soorten onderling zoeken een plek in het ecosysteem waar ze kunnen overleven en niet te veel concurrentie hebben.
Wat ik hier wil betogen is dat variatie erbij hoort, zelfs noodzakelijk is om te kunnen overleven als soort. Wat wij als afwijkingen zien horen er dus ook bij en kennen vaste percentages van voorkomen. Ze zijn dus lastig te voorkomen als we het hele systeem niet veranderen en dat laatste kan niet. We leven in onze habitat en zijn er zelf ook een gevolg van. Tegelijkertijd zijn er vele kwaliteiten naast schoonheid, intelligentie en gezondheid. Er zijn immers ontelbare andere polen waartussen we kunnen meten en waar we een normale verdeling zullen aantreffen. Dit is geen lukrake variatie maar gestructureerde normale variatie. De verdeling kan er soms iets anders uit zien maar kenmerk is dat het stabiel is en samenhangt met al het overige.
Een verdeling kan in werkelijkheid toch instabiel zijn en snel veranderen? Kijk naar de laatste verkiezingsuitslag hier in Nederland. Hoe zit dit?
De meetbare werkelijkheid bestaat uit ontelbare verdelingen die samen een statistisch landschap vormen. De verdelingen maken we zelf. Zoals de links-rechts verdeling in de politiek. Zo kleuren de polen, de extremen het midden gedeelte, terwijl er altijd extremen zijn. Als je de polen extreem en gematigd maakt krijg je links en rechts aan beide kanten. Uiterst rechts de extreme genuanceerde burger, die geen stelling inneemt en uiterst links de complotdenker dan wel anarchist die oproept de regering omver te werpen. Het is maar hoe je het verdeelt en meet.
In dit statistische landschap proberen wij onze weg te vinden en te voorspellen wat gaat gebeuren. Dat gaat goed in een heleboel gevallen. Tegelijkertijd is dat wat er gebeurt soms een complete verrassing. De reden is dat we complexe wezens zijn in een complexe wereld en dat dus er oneindig veel verdelingen en data zijn te genereren. We kunnen dus nooit het gehele statistische landschap in beeld krijgen want we zien alleen dat wat we meten. Dat wat we niet meten of niet kunnen meten is vele malen groter. We zitten wat dat aan gaat in ons gewone alledaagse leven in de zelfde situatie als kosmologen die maar 5% van datgene waaruit het universum bestaat kunnen zien; de zichtbare materie. 95% is zwarte materie en energie en die kunnen we alleen indirect vermoeden.
Dat wat we meten is dat wat we zien en dat we eventueel kunnen voorspellen. Artificiële Intelligentie kan dit trouwens aanzienlijk beter dan wij, maar is nog meer afhankelijk van wat er gemeten wordt; de beschikbare data.
Je hebt computers en gedegen onderzoeksopzet nodig om dit goed te kunnen beoordelen. Dat kun je niet voor alles doen. Hoe je naar iets kijkt en hoe je iets meet is bepaalt ook deels wat je gaat vinden.
Om hier wegwijs uit te komen heb je vuistregels nodig.
Wat is verstandig? Wel of geen roomboter? Wat te doen als er Pfas in je tuin zit? Dat soort inschattingen. Voor een leek niet uit te komen. Net als de detailkaart indertijd met de stikstofcrisis waar we overigens nog steeds in zitten. Het wordt absurd. Er is te veel stikstof maar waar precies? De positieve effecten van in je tuin zijn en je eigen groenten kweken wegen hoogstwaarschijnlijk op tegen de negatieve effecten van Pfas. Waar haal je die informatie vandaan als dat er niet bij wordt vermeld.
Wat we meten is dat meer dan 90% van onze ziektelast te wijten is aan onze levensstijl en die is innig verbinden met waar we wonen en wie we zijn. Pfas is voorals nog een verwaarloosbare factor in dit statistische landschap. Het zit in de resterende 10%, daarmee zeg ik niet dat het gezond is. Het stapelt en is ongezond voor alles wat leeft. Het hoort niet in de natuur. Maar zonder de totale rekensom zijn individuele risico’s moeilijk te interpreteren en kun je dus makkelijk een verkeerde indruk krijgen als het niet in het totale statistische landschap wordt geplaatst. Vandaar die grap over liegen... dat is dus makkelijk.
Bij levensstijl gaat het om stress, eenzaamheid, weinig bewegen en slecht eten. Het is moeilijk dit aan te pakken zonder rigoureus in te grijpen in het leven van mensen en daarom laten we het lopen. Hooguit een coaching of cursus. Dat is al te simpel gedacht. De genoemde risicofactoren zijn direct en innig verbonden met onze moderne samenleving die iedere dag anoniemer en bureaucratischer wordt. Bovendien zijn de percentages vele malen hoger dan alle andere factoren die we kennen en meten. Dat moeten we veranderen anders genezen we de symptomen individueel maar de ziekte woekert voor gemeenschappelijk.
Ooit was de verwachting dat door automatisering we meer vrije tijd zouden krijgen. Het tegendeel is gebeurd. We werken harder dan ooit. We diagnosticeren en behandelen meer dan ooit maar de percentages van genoemde intrinsieke risicofactoren stijgen gestaag. Het totale systeem veranderen is natuurlijk veel slimmer en effectiever. Het zorgt dat de percentages stress, eenzaamheid, weinig bewegen en slecht eten in de samenleving dalen. Bijgevolg dalen ook de percentages zieke mensen. We moeten tegelijkertijd bedenken dat deze nooit nul zullen worden. Ziekte hoort simpelweg bij het leven en is niet te vermijden. Het enige wat we kunnen is het statistische landschap veranderen en er mee leren omgaan.
Hoe dan?
Laten we teruggaan naar de vaste percentages en laten we aannemen dat 25% van de mensen fraudeert. Het zijn er misschien iets meer of iets minder maar evenveel als de mensen die dat absoluut niet doen. De 50% in het midden zouden dit misschien wel doen als ze in een bepaalde situatie belanden. Alle controlesystemen in onze maatschappij veranderen niets aan deze verdeling De potentie van het systeem. Als je dus een systeem inricht met voldoende feedback. Zoals bijvoorbeeld ons menselijk lichaam of ecosystemen die gebouwd zijn op feedback. Deze systemen kennen decentrale autonomie dan is er de meeste kans dat de oprechten de zwakkeren corrigeren zeker als de leidinggevenden aanwezig zijn in de werkprocessen. Alles wordt zo minder anoniem en dat is ook nog eens gezond. Langs deze lijnen kun je denken en vanwege de vaste percentages werkt het. Verzin een buffer die toeslagenschandalen voorkomt. Geef macht uithanden en laat de samenleving zichzelf genezen. Net als je moet stoppen met schoffelen moet je stoppen met burgertje pesten. Je moet iets anders gaan doen en iets anders gaan meten.
Je hebt goede onderwijzers en slechte onderwijzers, goede bestuurders en slechte bestuurders, goede en slechte artsen en ga zo maar door. Daar moet je rekening mee houden want dat kent dus weer die normale verdeling. Het is volgens mij beter dat de ‘goeden’ de ‘slechten’ kunnen helpen en corrigeren en niet dat de ‘slechten’ maar individueel voortmodderen en streng gecontroleerd worden door een baas of een algoritme. Daar wordt geen mens gelukkig van. De gezondheidscrisis is nauw verbonden met onze technologische samenleving en gebrek aan echt vrij menselijk contact. We moeten te veel. En geld verdienen en opgewekt zijn en een goede relatie hebben en andere mensen helpen. Je wordt er moe van.
De belangrijkste vraag in zake statistische gegevens is waarschijnlijk de vraag; wat is nu echt belangrijk?
Hoe om te gaan met statistische gegevens?
Blijf kalm, bekijk alle kanten van een zaak en blijf nieuwsgierig. Het is meestal geen glazen bol die maar één verhaal vertelt.
Commentaires