Rene Smit heeft ChatGPT opdracht gegeven kritiek te leveren “in zijn stijlregels” op ons artikel Foute modellen. Kennelijk zijn de grafieken door ChatGPT daarbij niet meegenomen, alleen de tekst is beoordeeld. Een ernstige tekortkoming natuurlijk. Het plaatje dat we ChatGPT lieten maken als illustratie van de analyse spreekt boekdelen: de parabool staat op zijn kop. Maar goed….
Als tegenreactie het oordeel van Grok gevraagd. Dit is de eindconclusie van Grok:
- Steig-artikel: 7,5–8/10 als blogpost over modellering (heel sterk op demografische principes, wat zwakker op nuance en alternatieven).
- ChatGPT-kritiek: 5,5/10 (maakt valabele stijl- en nuancepunten, maar bevat twee serieuze inhoudelijke missers en bagatelliseert de kernboodschap onterecht).
Kortom: nee, het is geen “slecht stuk”. Het is juist een van de betere Nederlandstalige stukken over dit specifieke modellering-probleem. De ChatGPT-kritiek is te streng en op een paar punten gewoon onjuist.
Het oordeel van ChatGPT zit vol met tegenstrijdige conclusies. Laten we ze ook zelf eens stap-voor-stap doornemen. ChatGPT heeft de punten van kritiek genummerd. Ook de positieve punten. We zullen naar deze nummers verwijzen met de letters Kx voor kritiek en Px voor positief. Daar gaan we dan:
Wat zegt ChatGPT nu eigenlijk?
K1. Verkeerd uitgangspunt foute modellen. Het samenstellen van leeftijden tot een samengesteld cohort leidt tot foute resultaten. ChatGPT stelt in K1 dat het samenstellen toch tot betrouwbare trends leidt. In P2 spreekt ChatGPT zichzelf echter tegen en benadrukt dat het samenstellen inderdaad fout is. In P1 zegt ChatGPT ook dat “Leeftijdsspecifieke sterfte is waardevoller dan globale sterfte per 100K.” Essentieel voor een goed model dus!
K2. Cohort voorbeeld is te extreem. Maar juist door het gebruiken van een extreem voorbeeld, laten we zien hoe dat werkt. In P2 zegt ChatGPT: “Dat inzicht is terecht”.
K3. Te stellige uitspraak over vergrijzing. Het artikel stelt o.a.: “Dus iedereen die vergrijzing noemt als oorzaak van de oversterfte, kan aan deze grafiek zien dat het niets met vergrijzing te maken heeft”. Dat is de boodschap. Vergrijzing is niet DE oorzaak van oversterfte. ChatGPT zegt daarover zelf in P3: “Ze gebruiken ASMR om vergrijzing weg te halen”. Het gaat daar om kansen, niet als absolute toename van sterfte door vergrijzing. Oversterfte is de sterfte na correctie voor vergrijzing.
K4. ASMR “als bewijs…”. Dat is een rare. In het artikel staat: “Alhoewel we deze cijfers niet rechtstreeks kunnen vergelijken met de daadwerkelijke sterfte, geeft het wel een goed inzicht in de ontwikkeling van de sterfteverwachting”. ASMR laat juist oversterfte zien door te corrigeren voor wijzigende bevolkingssamenstelling.
K5. Keuze model is niet neutraal. Een model is gebaseerd op aannames. We bespreken 4 modellen, waarvan met name de parabolische fit als fout wordt gezien. ChatGPT erkent dat in P5. De logaritmische fit beschrijft het verleden beter, maar lijkt ongeschikt om de toekomst te beschrijven. Ook dat wordt erkend door ChatGPT.
K6. Daling van sterftekans na 2020. Dat is inderdaad een aanname, maar het artikel stelt ook dat dit een aanname is. In P4 zegt ChatGPT: “Ze zoeken naar stabiliteit in trends”. Dat is wat we doen, een robuust model dat trends uit het verleden als stabiele factor kiest.
K7. Parabolische fit te makkelijk weggezet. ChatGPT geeft zelf aan: “Toch kan sterfte tijdelijk stijgen door verouderende babyboomers”. Het kenmerk van een parabool is dat deze in de tijd steeds sneller stijgt. Een tijdelijk karakter ontbreekt volkomen en is alleen al om die reden ongeschikt als model om de toekomst te beschrijven. De parabool voorspelt een stijging van de sterftekans van 35% in 2040. Daarnaast negeert ChatGPT dat we juist corrigeren voor wijzigingen in bevolkingsopbouw, zodat de plotselinge toename in sterfte door de babyboomers wordt gecompenseerd. Hilarisch is dat ChatGPT de parabool ter illustratie op z’n kop zet.
K8. Logfit evenmin onderbouwd. Dat klopt, er is ook geen enkele onderbouwing. Wij schrijven daarom: “Een verloop dat niet door een fysische achtergrond wordt onderbouwd, maar wonderbaarlijk gelijkloopt met de cijfers van 2003-2019”. Daarom bevelen wij deze niet aan om de toekomst te beschrijven. De gelijkloop is slechts “wonderbaarlijk”.
K9. Te grote zekerheid over conclusies. Wij beschrijven het te verwachten sterftepatroon met een model. De afwijkingen van de werkelijke sterfte met het model zijn sinds 2021 grotendeels “onverklaard”. Alleen de oversterfte in 2020 is verklaarbaar met sterfte door corona. ChatGPT suggereert dat dit deels verklaarbaar is met “alle bekende factoren”. Daarbij worden uitsluitend factoren genoemd, die niet te kwantificeren zijn en vaccinatie wordt daarbij niet genoemd. Het artikel zoekt ook niet naar oorzaken. Het woord “vaccin” komt in ons artikel niet voor! Het weglaten door ChatGPT van vaccinatie als verklaring voor oversterfte riekt naar vooringenomenheid.
K10. Cirkelredenering. De berekeningen zijn inderdaad gebaseerd op een voortzetting van de trend die we zagen in 2010-2019. Maar zelfs als je die trend fixeert in 2020 zie je vrijwel hetzelfde sterftepatroon en daarmee een oversterfte van rond de 8% per jaar. Het is onjuist dit als een cirkelredenering te zien.
K11. Te weinig aandacht voor onzekerheden. Zolang je het nog niet eens bent over de toepassing van een model, is het niet zinvol onzekerheden mee te nemen. De foute keuze voor bv een parabolisch model introduceert een systematische fout die over 15 jaar 35% meer sterfte voorspelt. Een ondersterfte van 30% is dan het gevolg. Of de daling van sterftekans van 1% per jaar na 2020 volledig blijft bestaan, is kristallen bol. Net zo goed als de aanname dat deze vanaf 2020 volledig tot stilstand is gekomen. Pas op zeer lange termijn krijgen we zicht op de sterftekansen, als de gevolgen van de grote onbekende oorzaak zijn verdwenen.
K12. Toon is misleidend. Dat is een subjectief oordeel. Het suggereert dat de bevindingen een onjuiste voorstelling van zaken geven. Juist door het zorgvuldig samenstellen van kansen, wordt een zuivere beschrijving van de feitelijkheden gegeven. Wel met de beperking dat er van uit wordt gegaan dat de zeer langzame daling van sterftekans nog even voortduurt. Dit in schril contrast met de parabolische benadering, die ervan uitgaat dat de sterftekans in de loop van de jaren sterk toe zal nemen. Een misleidende benadering!
Het volledige antwoord van ChatGPT
Link naar chatgpt: https://chatgpt.com/share/69247829-1f78-8004-b756-caf45f9986c2
Kritiek op dit artikel
- Verkeerd uitgangspunt over “foute modellen”
Het artikel presenteert de eigen methode als de enige juiste. Je krijgt de indruk dat elk model dat niet per leeftijd én per geslacht rekent automatisch onbruikbaar is. Dat klopt niet. Je kunt prima betrouwbare trends krijgen met per-100K cijfers zolang je de beperkingen duidelijk beschrijft. Het artikel doet alsof iedereen die dat doet de basisprincipes van demografie niet snapt. Dat is geen eerlijke voorstelling.
- Het cohort-voorbeeld is te extreem
Het voorbeeld met 79-81-jarigen is gebouwd om te misleiden. De auteur kiest cijfers die precies het gewenste punt “bewijzen”, maar zulke extreme verschuivingen komen in de praktijk niet voor. Een voorbeeld dat alleen werkt bij geforceerde waarden zegt weinig over echte bevolkingen.
- Te stellige uitspraak over vergrijzing
Het artikel beweert dat vergrijzing geen rol speelt in recente oversterfte omdat de ASMR vlak blijft. Dat is te sterk. ASMR filtert vergrijzing weg door definities. Het zegt niks over de werkelijke impact van vergrijzing op absolute sterftecijfers. Het artikel gebruikt ASMR alsof het een absolute maat is. Dat klopt niet.
- ASMR als “bewijs” gebruiken is misleidend
ASMR laat een patroon zien als de leeftijdsstructuur constant zou blijven. Maar de vraag of er oversterfte is gaat juist over echte sterfte in een echte bevolking. ASMR toont een trend. Het bewijst niet wat de oorzaak is. Het artikel doet dat wel.
- De keuze van model is niet neutraal
De auteurs doen alsof de exponentiële trend vanzelfsprekend de juiste is, maar dat is een aanname. Dat sterftekansen per leeftijd elk jaar met een vast percentage dalen is een modelkeuze, geen feit. Je kunt met andere aannames net zo goed redelijke resultaten krijgen.
- Onrealistische verwachting van dalende sterfte
Het artikel gaat ervan uit dat sterftekansen “normaal” blijven dalen zoals vóór 2020. Dat is geen wetmatigheid. Sterftekansen kunnen afvlakken. Ze kunnen schommelen. De daling van 2000-2019 kwam door specifieke factoren. Die factoren kunnen veranderen. Het is niet bewezen dat de trend hetzelfde zou blijven zonder pandemie.
- De parabolische trend te makkelijk weggezet
Hun afwijzing van een parabool is te simpel. Ze zeggen dat een parabool “demografisch onmogelijk” wordt. Toch kan sterfte tijdelijk stijgen door verouderende babyboomers, medische schokken of externe factoren. Je hoeft geen parabool te gebruiken, maar het artikel zet een karikatuur neer.
- De log-fit is evenmin onderbouwd
De auteurs keuren de logaritmische curve goed omdat hij “mooi past”. Dat is precies wat ze anderen verwijten. De log-fit heeft ook geen biologische onderbouwing. Ze gebruiken het omdat het handig uitkomt.
- Te grote zekerheid over conclusies
Het artikel suggereert dat afwijkingen na 2020 per definitie “onverklaard” zijn. Dat klopt niet. Je moet eerst alle bekende factoren isoleren. Denk aan:
- uitgestelde zorg
- verandering in diagnosepraktijk
- demografische verschuivingen binnen leeftijdscohorten
- varianten van Covid zelf
- leefstijlverslechtering post-pandemie
Het artikel behandelt die zaken niet. Toch trekt het stevige conclusies.
- Cirkelredenering over sterfteverwachting
Ze bouwen een model dat uitgaat van dalende sterftekansen. Daardoor berekenen ze een baseline die daalt. Vervolgens vergelijken ze die baseline met echte sterfte en concluderen dat de sterfte “te hoog” is. Dat komt voort uit de aanname zelf.
- Te weinig aandacht voor onzekerheden
Het artikel geeft geen betrouwbaarheidsintervallen. Geen foutmarges. Geen gevoeligheidsanalyse. Geen toetsing van alternatieve modellen. Ze gebruiken alleen een vaste lijn en presenteren dat als natuurwet.
- De toon is misleidend zeker
Er wordt veel zwart-wit gedacht:
- dit model is “goed”
- alle andere modellen zijn “fout”
Dat is wetenschappelijk niet houdbaar. Modellen zijn benaderingen. Baselines zijn keuzes. Het artikel behandelt die keuzes als feiten.
TL;DR
Het artikel stelt dat alleen hun leeftijd-geslacht-exponentieel model klopt en dat andere modellen “fout” zijn. De voorbeelden zijn kunstmatig. ASMR wordt verkeerd gebruikt als bewijs. De gekozen trends zijn aannames, geen feiten. De conclusies zijn stellig zonder onzekerheden of alternatieve verklaringen. Het stuk geeft een te simplistisch beeld van demografische modellering en oversterfte.
Wil je ook een kortere versie, een lompere versie, of een versie die focust op statistische fouten?
Je zei:
Dus het is een slecht stuk?
ChatGPT zei:
Ja. Het is een slecht stuk als je het beoordeelt op wetenschappelijke kwaliteit.
Niet omdat alles onzin is, maar omdat de auteurs hun methode presenteren als objectief juist terwijl het vol zit met:
- te sterke aannames
- misleidende voorbeelden
- selectief gekozen modellen
- gebrek aan foutmarges
- geen toetsing van alternatieven
- te stellige conclusies
Het leest als een model dat vooral wordt verdedigd omdat de auteurs het graag waar willen hebben.
TL;DR
Het stuk is niet totaal waardeloos, maar het is wél slecht onderbouwd en te zelfverzekerd geschreven.
Je zei:
Is er ook iets goeds te melden?
ChatGPT zei:
Ja. Er zijn een paar goede punten te noemen, ook al is het geheel zwak.
Wat is goed aan het stuk
- Ze benadrukken dat leeftijdsopbouw belangrijk is
Veel mensen vergeten dat veranderen van demografie het sterftecijfer op bevolkingsniveau flink beïnvloedt. Dat punt klopt. Leeftijdsspecifieke sterfte is waardevoller dan globale sterfte per 100K. - Ze laten zien dat samengestelde leeftijdsgroepen vertekening geven
Dat is juist. Groepen als 80–84 of 75–79 kunnen rare effecten geven als de interne verdeling verschuift. Dat inzicht is terecht. - Ze gebruiken ASMR om vergrijzing weg te halen
ASMR is een standaardtool in epidemiologie. Het idee om trends te vergelijken in een vaste populatiestructuur is op zich goed. - Ze proberen consistentie tussen modellen en jaren te vinden
Ze zoeken naar stabiliteit in trends. Dat is een serieuze aanpak, zelfs als hun uitvoering matig is. - Ze wijzen op het risico van blind curvefitten op totaalsterfte
Klopt. Een willekeurige parabool op totaalcijfers is een slechte manier om sterfteverwachting te maken. Dat is een terechte waarschuwing.
TL;DR
Ja, er zitten bruikbare punten in het stuk. Vooral hun aandacht voor leeftijdsopbouw en het gevaar van simpele curvefits is zinvol. Maar de goede elementen worden overschaduwd door te sterke claims en slechte onderbouwing.
