1

HADCRU Energie und Temperatur

Um die Größenordnung des Treibhauseffektes zu berechnen, wird die einfallende und ausgehende Strahlung üblicherweise verglichen mit den Strahlungsemissionen der Erde mit ihrer gemittelten Temperatur von 14°C bis 15°C. Diese geht auf den Datensatz der absoluten Temperatur der HADCRU-Version 4 1961 bis 1990 zurück. Mittels der Planck-Funktion oder des ähnlichen Stefan-Boltzmann-Gesetzes (siehe Gleichung 1) kann die von der Erde emittierte Strahlung aus deren Temperatur T berechnet werden unter der Annahme, dass sich die Erde wie ein Schwarzkörper verhält. Normalerweise wird die Strahlungsberechnung durchgeführt unter der Annahme einer Emissivität (e) von 1. Dies bedeutet, dass die Erde ein perfekter Schwarzkörper ist, der genauso viel Energie emittiert wie er empfängt. Das verwendete Gebiet beträgt 1 Quadratmeter, so dass das Ergebnis in Watt/m² vorliegt. Mittels dieser Annahmen ergibt die Berechnung, dass die Erde etwa 390 W/m² emittiert bei einer Temperatur von 288 K (Kiehl and Trenberth, 1997).

Gleichung 1 (Quelle)

Wenn er auf diese Weise berechnet wird, zeigt der Treibhauseffekt (GHE) ein Ungleichgewicht von 390 – 239 = 151 W/m². Kiehl und Trenberth 1997 berechneten einen ähnlichen Gesamtantrieb von 155 W/m² mittels des gleichen Verfahrens. Die GHE-Berechnung erfolgt unter vielen Annahmen, von denen nicht die Geringste die Annahme ist, dass die Erde eine Emissivität von 1 aufweist und ein Schwarzkörper ist. Aber hier wollen wir das Problem der Verwendung einer globalen mittleren Temperatur T der Erde in Betracht ziehen, welche eine rotierende Kugel ist, wobei zu jeder Zeit nur die Hälfte dieser Sphäre der Sonne zugewandt ist.

Ein spezifisches Problem ist, dass die Erde eben keine gleichmäßige globale Temperatur aufweist. Falls man diese mit 288 K annimmt, dann wird es Stellen auf dem Planeten geben, welche genau diese Temperatur aufweisen, und diese Stellen werden in etwa 390 W/m² emittieren. Aber auf dem allergrößten Teil des Planeten wird die Temperatur eine andere sein und Energie proportional zu T4 emittieren. Das Mittel der Temperatur zur vierten Potenz ist nicht das gleiche wie das Mittel von T4. Dies ist einfache Hochschul-Algebra, und wie groß wird die Differenz dadurch wohl sein?

Um dies zu beantworten, wenden wir uns jetzt der Version 4 des globalen Temperatur-Datensatzes der Hadley Climate Research Unit (HADCRU) zu. Wir ziehen deren Version 4 mit der Referenzperiode 1961 bis 1990 heran sowie deren Temperaturanomalie-Datensatz von 1850 bis 2017. Die Konstruktion der Referenzperiode und der Anomalie-Datensätze wird von Jones et al. (2012) beschrieben. Da die Reihen der Temperaturanomalien Anomalien jeder Reihe im Vergleich zur Periode 1961 bis 1990 sind, sollten wir in der Lage sein, die Referenztemperatur der Reihen zu nutzen, um die Anomalien in absolute  Temperaturwerte umzuwandeln. In beiden Fällen handelt es sich um Datensätze mit Gitterpunkten von 5° zu 5°. Anomalien werden für jede Station berechnet, um Probleme wegen der unterschiedlichen Seehöhen zu vermeiden. Das wird vor dem Anbringen des Gitternetzes gemacht. Addiert man folglich die Referenztemperatur zu der Anomalie, erhält man nicht die Original-Messungen. Auf der Website von HADCRU heißt es dazu:

Festlandsstationen befinden sich in unterschiedlichen Höhen (bezogen auf NN), und verschiedene Länder messen mittlere monatliche Temperaturen mittels verschiedener Verfahren und Formeln. Um Verzerrungen aufgrund dieser Probleme zu vermeiden, werden die monatlichen mittleren Temperaturen reduziert auf Anomalien hinsichtlich der Referenzperiode mit der besten Abdeckung (1961 bis 1990). Für die herangezogenen Stationen muss ein Mittelwert der Referenzperiode berechnet werden. Weil die Messreihe vieler Stationen von 1961 bis 1990 nicht vollständig sind, kamen verschiedene Verfahren zur Anwendung, um Mittelwerte 1961 bis 1990 aus benachbarten Stationen oder anderen Datenquellen zu erhalten (mehr dazu bei Jones et al., 2012). Über den Ozeanen, wo Beobachtungen allgemein von mobilen Plattformen erfolgen, ist es unmöglich, lange Temperaturreihen für bestimmte feste Punkte zu erhalten. Allerdings kann man historische Daten extrapolieren, um räumlich vollständige Referenzwerte (Mittelwerte 1961 bis 1990) zu erstellen, so dass individuelle Beobachtungen verglichen werden können mit dem lokalen Normalwert für den gegebenen Tag des Jahres (Weiteres dazu bei Kennedy et al., 2011).

Es ist möglich, absolute Temperaturreihen für jedes gewählte Gebiet zu erhalten mittels Daten des absoluten Datensatzes und diese dann zum regionalen Mittel zu addieren, welches aus den genetzten [gridded] Daten berechnet worden ist. Falls beispielsweise ein regionales Mittel angefordert wird, sollten die Nutzer eine regionale Zeitreihe mittlerer Anomalien berechnen und dann die Werte im absoluten Datensatz für das gleiche Gebiet mitteln und diesen Wert schließlich zu jedem Wert in der Zeitreihe addieren. Man addiere NICHT die absoluten Werte zu jeder Gitterbox in jedem monatlichen Bereich, um danach großräumige Mittelwerte zu berechnen.

Übrigens ist dieses NICHT ( Im Original „NOT“, Anmerkung des Übersetzers) auf der Website selbst in Großbuchstaben zu finden, das habe ich nicht verändert. Ich hatte vor, die Gitter-Temperatur 1961 bis 1990 zu der Gitter-Anomalie zu addieren und eine angenäherte tatsächliche Temperatur zu erhalten, aber sie sagen, man solle das „NICHT“ tun. Warum sagt man dem Leser, dass man die absoluten gemittelten Referenz-Temperaturen zu den gemittelten Anomalien addieren kann, und sagt ihn danach explizit, nicht die absolute Gitter-Temperatur zu einer Gitter-Anomalie zu addieren? Jede Anomalie-Reihe muss auf ihr eigenes Mittel 1961 bis 1990 bezogen werden. Warum spielt es dann eine Rolle, dass wir die Anomalien und dann die Referenztemperaturen separat mitteln, bevor man beide addiert? Also war natürlich das Erste, was ich machte, die absoluten Gitterwerte 1961 bis 1990 zu den Anomalie-Gitterwerten zu addieren, und zwar für die gesamte Erde von 1880 bis 2016, also genau das, was ich laut Instruktion „NICHT“ tun sollte. Das absolute Temperaturgitter ist vollständig ohne fehlende Werte. Die Jahr-für-Jahr-Gitter weisen viele fehlende Werte auf, und die gleichen Gitterquadrate sind nicht in jedem Jahr gleich belegt. Es stellt sich heraus, dass dies genau das Problem ist, auf welches HADCRU mit diesem Zitat hinweist.

Abbildung 1 zeigt die globalen mittleren Temperaturen von 1880 bis 2016, berechnet nach den Vorgaben vom HADCRU. Zuerst habe ich die Anomalien eines jeden Jahres gemittelt und gewichtet nach dem Kosinus der Breite, weil es sich um ein 5° X 5°-Gitter handelt und die Fläche jedes Gitterquadrates vom Äquator zu den Polen mit dem Kosinus der Breite abnimmt. Dann habe ich die globale Mitteltemperatur 1961 bis 1990 zur mittleren Anomalie addiert. Während das Referenztemperatur-Gitter vollständig mit absoluten Temperaturen angefüllt ist, ist dies bei den jährlichen Anomalie-Gittern nicht der Fall. Außerdem wechseln die vollständig abgedeckten Gitterquadrate von Jahr zu Jahr. Dieses Verfahren vermischt eine Berechnung eines vollständig ausgefüllten Gitterquadrates mit einer Berechnung eines Gitterquadrates mit nur wenigen Werten.

Abbildung 1: Mittelung der Anomalien mit nachfolgender Addition zur mittleren globalen Temperatur 1961 bis 1990.

Wenn man das so macht, wie man uns explizit sagt es nicht zu machen, erhalten wir Abbildung 2. Darin addierte ich die geeignete absolute Gitterquadrat-Mitteltemperatur zu jedem abgedeckten Gitterquadrat für jedes Jahr, um ein Netz mit absoluten Temperaturen zu erhalten und dieses dann zu mitteln unter Nichtbeachtung der Gitterquadrate ohne Werte. In diesem Prozess passt das Gitter der absoluten Temperaturen zum Anomalie-Gitter.

Abbildung 2: Umwandlung jeder Gitterzelle in tatsächlich Temperatur mit nachfolgender Mittelung

Der Unterschied zwischen den Abbildungen 1 und 2 wird am augenfälligsten vor dem Jahr 1950. Nach 1950 ist der untere Plot ein paar Zehntelgrad niedriger, aber der Trend ist der gleiche. Mit perfekten Daten sollten beide Plots gleich sein. Jede Zeitreihe wird konvertiert in eine Anomalie unter Verwendung der eigenen Daten 1961 bis 1990. Multiple Reihen in jedem Gitterquadrat werden zusammengeführt mittels direkter Mittelwerte [straight averages]. Aber – die Daten sind eben nicht perfekt. Gitterquadrate weisen in einem Jahr viele Messungen auf, in anderen gar keine. Vor 1950 ging die Abdeckung auf der Nordhemisphäre nie über 40% hinaus, auf der Südhemisphäre nie über 20%. Angesichts der großen Differenz zwischen den Abbildungen 1 und 2 ist nicht klar, ob die Daten vor 1950 robust sind. Oder klarer ausgedrückt, die Daten vor 1950 sind nicht robust. Ebenfalls ist unklar, warum die Periode 1950 bis 2016 in Abbildung 2 um 0,2°C bis 0,3°C kühler ist als in Abbildung 1. Ich kratze mich immer noch am Kopf ob dieses Phänomens.

Das HADCRU-Verfahren zur Berechnung globaler Temperaturen

Das Verfahren zur Berechnung der Gitterquadrat-Temperaturen von HADCRU Version 4 wird auf deren Website so beschrieben:

Dies bedeutet, dass es 100 Angaben für jedes Gitterquadrat gibt, um die möglichen Annahmen abzuklopfen, welche in der Struktur der verschiedenen Komponenten des Fehlers involviert sind (siehe die Diskussion bei Morice et al., 2012). Alle 100 Angaben sind auf der Site des Hadley Centers verfügbar, aber wir haben hier das Ensemble-Mittel gewählt. Für die genetzten Daten ist dies das Ensemble-Mittel, separat berechnet für jede Gitterzelle und für jeden Zeitschritt der 100 Angaben. Für die hemisphärischen und globalen Mittelwerte ist dies wiederum der Median für die 100 Angaben. Der Median der genetzten Reihen wird nicht den Median der hemisphärischen und globalen Mittelwerte erzeugen, aber die Differenzen werden klein sein.

Folglich ist die globale Mitteltemperatur nach HADCRU Version 4 nicht ein wahres Mittel. Stattdessen ist es der Median-Wert der 100 statistischen Angaben für jede mit Messungen abgedeckte Gitterzelle und beide Hemisphären. Jede Temperaturmessung enthält Fehler und ist dadurch unsicher (Details dazu z.B. hier und hier). Das von HADCRU erzeugte 5° X 5°-Gitternetz enthält für ein Kalenderjahr mit 12 Monaten 31.104 Gitterzellen. Die meisten davon weisen keine Werte auf. Abbildung 3 zeigt die Anzahl dieser Zellen mit Null (ohne Werte) Jahr für Jahr von 1880 bis 2016.

Abbildung 3. Datenquelle

Wie man sieht, gibt es aus den meisten Zellen keine Daten, nicht einmal während der letzten Jahre. In Abbildung 4 erkennt man die Verteilung der Gitterquadrate mit Messpunkten. Die Zellen mit adäquaten Daten sind gefärbt, jene mit unzureichenden Daten bleiben weiß. Die Abdeckung auf der Nordhemisphäre von 1960 bis 1990 liegt bei nahe 50%, die Abdeckung auf der Südhemisphäre im gleichen Zeitraum geht nie über 25% hinaus.

Abbildung 4. Quelle: Jones, et al., 2012

Die Daten sind also spärlich, und die meisten Daten stammen von der Nordhemisphäre und hier vom Festland. An beiden Polen gibt es kaum Daten. Also hat HADCRU zwei Probleme: erstens die Mess-Ungenauigkeit und zweitens, wie man mit der spärlichen und ungleichmäßigen Verteilung der Daten umgeht. Der Mess-Ungenauigkeit wird begegnet, indem gefordert wird, dass jede Gitterzelle eine ausreichende Anzahl von Stationen enthält, die über das betrachtete Jahr Meldungen absetzen. Da der Referenzzeitraum die Jahre 1961 bis 1990 sind, sind auch ausreichend Messungen über diesen Zeitraum erforderlich. Allgemein wird verlangt, dass die Stationen mindestens 14 Jahre lang Daten liefern zwischen 1961 und 1990. Stationen außerhalb von fünf Standardabweichungen des Netzes werden aussortiert [Stations that fall outside five standard deviations of the grid mean are excluded].

Die monatlichen Netze sind nicht umrissen, um die fehlenden Netz-Werte zu ergänzen, wie man erwarten könnte. Ist die mittlere Temperatur für jede Gitterzelle erst einmal mit ausreichend Daten berechnet, werden die durch Meldungen repräsentierten Gitterzellen Kosinus-gewichtet und gemittelt. Siehe Gleichung 9 in Morice, et al., 2012. Das Gebiet variiert so wie der Kosinus der Breite, also werden die Gitterzellen hiermit gewichtet. Die gewichteten Gitterwerte werden für jede Hemisphäre aufsummiert, und aus diesen Ergebnissen der beiden Hemisphären wird eine globale mittlere Temperatur gemittelt. Jahreszeitliche und jährliche Mittel sind aus monatlichen Gitterwerten abgeleitet.

Die meisten mit Messpunkten gefüllten Gitterzellen befinden sich auf dem Festland, weil wir hier leben; und doch sind 71% er Erdoberfläche von Ozeanen bedeckt. Gegenwärtig ist das kein Problem, weil wir Satellitenmessungen der Wassertemperatur und der Lufttemperatur über der Wasseroberfläche haben. Zusätzlich gibt es Netz aus ARGO-Bojen, welches hoch qualitative Ozeantemperaturen liefert. Aber historisch war das ein großes Problem, weil alle Messungen ausschließlich von Schiffen kommen mussten (die ich überdies zu ca. 90 % auf die Hauptschifffahrtslinien beschränkten..Anm. der Redaktion). Der entscheidende HADSST3-Datensatz für die Abschätzung der Ozeantemperatur wird beschrieben von Morice, et al., 2012. Eine ausführlichere Beschreibung der Probleme bei der Abschätzung historischer Wassertemperaturen in ozeanischen Gitterzellen gibt es bei Farmer, et al., 1989. Die Daten vor 1979 stammen aus dem in Schiffe einströmenden Kühlwasser, Treibbojen und Eimermessungen von Wasser neben den Schiffe. Diese Quellen sind mobil und anfällig für Fehler. Die Durchmischungs-Schicht der Ozeane ist im Mittel 59 Meter dick (JAMSTEC MILA GPV data). Mehr zu den JAMSTEC- Wassertemperaturdaten gibt es hier. Die Durchmischungsschicht der Ozeane ist diejenige Schicht, die sich zumeist im Gleichgewicht mit der Atmosphäre befindet. Diese Schicht weist 22,7 mal die Wärmekapazität der gesamten Atmosphäre auf und bewirkt einen merklichen Einfluss auf die Temperaturen der Atmosphäre. Sie wird auch beeinflusst durch die kühleren, tieferen Ozeanschichten, welche sie durch Aufwallen und Absinken beeinflussen können (hier).

Meine Berechnungen

Ich begann mit den Referenztemperaturdaten der Periode 1961 bis 1990, „Absolut“ genannt und hier zu finden. Dies ist eine Reihe von 5° X 5° globale Temperaturgitter für den Referenzzeitraum. Anders als die Anomalie-Datensätze sind diese Netze vollständig mit Meldungen besetzt und enthalten keine Null-Werte. Wie der Absolut-Datensatz besetzt war, wird erklärt von Jones, et al., 2012. Abbildung 5 zeigt die Karte des mittleren Absolut-Temperaturnetzes.

Abbildung 5: Karte der „Absolut“-Daten (Datenquelle: HADCRU)

Ich wendete das gleiche Verfahren an wie HADCRU. Zuerst las ich das Absolut-Netz, es enthält eine Anordnung, welche dimensioniert ist mit 72 Längengrad-Segmenten (5°), 36 Breitengrad-Segmenten und 12 Monaten oder ein Jahr. Als nächstes unterteilte ich das globale Anomalie-Netz von HADCRU4 Jahr für Jahr, mittelte die Zellen mit Messungen und addierte dann das mittlere Absolut der Temperatur von 1961 bis 1990 zur mittleren Anomalie. Die Ergebnisse zeigt Abbildung 1. Wie oben beschrieben, habe ich auch einige Zeit aufgewendet, genau das zu tun, was NICHT zu tun auf der HADCRU-Website empfohlen worden ist. Dieses Ergebnis zeigt Abbildung 2.

Die HADCRU-Daten reichen zurück bis zum Jahr 1850, aber es gibt kaum globale Daten vor 1880, und viele davon stammen aus der offenen Atmosphäre. Schutzfolien zur Abschirmung der Thermometer vor direktem Sonnenlicht waren bis 1880 kaum in Gebrauch, was die Qualität der frühen Daten beeinträchtigte. Also zog ich nur die Daten von 1880 bis 2016 heran.

Das Überraschende an der Graphik in Abbildung 2 ist, dass die Temperaturen von 1890 bis 1950 höher lagen als jede andere Temperatur seitdem. Man betrachte Abbildung 3 bzgl. der Anzahl von Null-Werten. Es gibt insgesamt 31.104 Zellen, die maximale mit Messungen angefüllte Zahl beträgt rund 11.209 im Jahre 1969 oder 35%. Abbildung 6 ist invers die Abbildung 3 und zeigt die Anzahl der mit Messungen gefüllten Zellen für jedes Jahr.

Abbildung 6.

Geht die höhere Temperatur von 1890 bis 1950 in Abbildung 2 nur auf die geringe Zahl von Messungen enthaltenden Zellen zurück? Oder liegt es an der ungleichen Verteilung dieser Zellen? Es gibt einen plötzlichen Sprung der Anzahl mit Messungen belegter Zellen um das Jahr 1950, welcher zusammenfällt mit einem anomalen Temperaturabfall – was ist der Grund dafür? Geht es auf einen Rechenfehler in meinen Berechnungen zurück? Falls mir tatsächlich ein Fehler unterlaufen ist (was immer möglich ist), dann bin ich sicher, dass jemand den Fehler finden und mir mitteilen wird. Ich habe meine Berechnungen wieder und immer wieder überprüft und halte sie für korrekt. Ich habe die einschlägigen Studien gelesen und kann keine Erklärung für diese Anomalien finden. Alle Daten und der R-Code können hier heruntergeladen werden. Erfahrene R-Nutzer werden keine Probleme haben, die zip-Datei enthält den Code sowie alle eingehenden Datensätze und eine tabellarische Zusammenfassung des Outputs.

Energie und Temperatur

Ausschlaggebender Grund für diese Studie war es zu erkennen, welchen Unterschied die rechenbetonte Sequenz bei der Berechnung der Energie-Emissionen von der Erde ausmacht. Das heißt, nehmen wir die vierte Potenz einer mittleren Temperatur, wie es Kiehl und Trenberth 1997 gemacht haben? Oder nehmen wir jede Temperatur einer Gitterzelle zur vierten Potenz und mitteln dann die Stefan-Boltzmann (SB)-Energiegleichung aus Gleichung 1? Das Mittel der HADCRU-Temperaturen des Jahres 2016 beträgt 15,1°C. Die mit dieser Temperatur (288 K) berechneten SB-Energieemissionen sind die 391 W/m², welche allgemein in der Literatur genannt werden. Falls wir die SB-Emissionen aller belegten HADCRU-Gitterzellen für das Jahr 2016 berechnen und diese nach Gebiet gewichtet mitteln, erhalten wir 379 W/m². Dies ist eine geringe Differenz, solange wir nicht diese Differenz vergleichen mit der geschätzten Differenz, welche zunehmendes CO2 haben könnte. Im IPCC-Zustandsbericht 5 zeigt Abbildung SPM.5 (hier in der dritten Abbildung), dass die Gesamtauswirkung der menschlichen CO2-Emissionen seit 1750 2,29 W/m² ausmachten, also viel weniger als die Differenz zwischen den beiden Berechnungen der Emissionen der Erde.

Der Vergleich wird noch schlechter, wenn wir ihn im zeitlichen Verlauf betrachten. Abbildung 7 zeigt die Berechnung der Energie-Emissionen bei einer globalen mittleren Temperatur oder (Mean T)4. Abbildung 8 zeigt die Berechnung durchgeführt für jede einzelne Gitterzelle in jeder mit Messungen belegten Zelle mit nachfolgender Mittelung oder (Mean T4).

Abbildung 7

Abbildung 8

Es scheint wahrscheinlich, dass die Differenzen von 1880 bis 1950 bezogen sind auf die Anzahl Messungen enthaltender Zellen sowie deren Verteilung, aber dies ist zum jetzigen Zeitpunkt Spekulation. Man muss sich Fragen stellen hinsichtlich der Genauigkeit dieser Daten. Der Vergleich seit 1950 ist O.K. außer für die algebraische Differenz, die sich ergibt, wenn man erst die Temperatur mittelt und dann den Mittelwert zur vierten Potenz erhebt, oder wenn man erst jede Temperatur zur vierten Potenz nimmt und dann die Energie mittelt. Von 1950 bis 2014 beträgt diese Differenz im Mittel 13 W/m².

Diskussion und Schlussfolgerungen

Ich stelle die von HADCRU getroffene Wahl nicht in Frage, 100 statistische Realisationen jeder Gitterzelle zu erzeugen und dann den mittleren Gesamtwert heranzuziehen, gewichtet nach dem Kosinus der Breite, als die mittlere Temperatur für jede Hemisphäre und dann die Hemisphären zu kombinieren. Das ist ein vernünftiges Verfahren, aber warum unterscheidet sich dieses Ergebnis von einem direkten gewichteten Mittel der mit Messungen belegten Gitterzellen? Meiner Ansicht nach sollte jedwedes statistische Ergebnis zu dem einfachen statistischen Ergebnis passen, oder die Differenz muss erklärt werden. Der Vergleich zwischen den beiden Verfahren für den Zeitraum 1950 bis 2016 ist O.K., obwohl das HADCRU-Verfahren zu einer verdächtig höheren Temperatur führt. Ich vermute, dass die Daten von 1950 bis 2016 viel robuster sind als die Daten davor. Ich würde jedwede Schlussfolgerung bezweifeln, welche von früheren Daten abhängig ist.

Deren geforderte Berechnung ist ein wenig verstörend. Es verlangt die Mittelung in einem kaum belegten Anomalie-Netz, dann die Mittelung eines vollständig belegten absoluten Temperatur-Netzes mit nachfolgender Summierung der beiden Mittelwerte. Dann instruiert man uns explizit, nicht die gleiche Belegung von Gitterzellen (Anomalie und Absolut) zu wählen, diese zu summieren und zu mitteln. Und doch summiert Letzteres Äpfel und Äpfel.

Schließlich ist es sehr klar, dass die Anwendung der SB-Gleichung zur Berechnung der Energie-Emissionen der Erde mit einer geschätzten globalen Mitteltemperatur falsch ist. So wurden die Emissionen in Abbildung 7 berechnet. Wenn wir die SB-Emissionen berechnen aus jeder belegten HADCRU-Gitterzelle und dann das Ergebnis mitteln, was laut Grundlagen-Algebra der richtige Weg ist, erhalten wir das Ergebnis in Abbildung 8. Vergleicht man beide Ergebnisse, zeigt sich, dass es erhebliche Probleme mit den Daten vor 1950 gibt. Ist dies die Anzahl der Null-Gitterzellen? Ist es die räumliche Verteilung belegter Gitterzellen? Ist es ein Problem der geschätzten Wassertemperaturen? Oder vielleicht ein anderer Komplex von Problemen? Schwer zu sagen, aber es ist schwierig, den früheren Daten zu vertrauen.

Wir versuchen, die Auswirkungen von steigendem CO2 zu bestimmen. Dies führt zu einem geschätzten „Forcing“ von etwa 2 W/m². Auch wollen wir wissen, ob die Temperatur während der letzten 140 Jahre um 1°C gestiegen ist Sind diese Daten genau genug, um sogar diese Auswirkungen aufzulösen? Das scheint mir nicht eindeutig.

Der R-Code und die Daten zur Erstellung der Abbildungen in diesem Beitrag können hier heruntergeladen werden.

Link: https://wattsupwiththat.com/2017/09/09/hadcru-power-and-temperature/

Übersetzt von Chris Frey EIKE




Bedeutung und Nutzen von Mittel­werten bei der Anwen­dung auf Klima

[Bemerkung: Im folgenden Beitrag hat der Autor bei allen Temperaturangaben (in °F) die Zehntel-Ziffer unterstrichen. Ich habe sämtliche Angaben in Grad Celsius umgerechnet, aber auf die Unterstreichung der Zehntel-Ziffern verzichtet. Aus dem Beitrag geht eindeutig hervor, was der Autor damit hervorheben will. Anm. d. Übers.]

Mittelwerte

Mittelwerte sind vielfach nützlich. Ein allgemeiner Nutzen ist es, die Berechnung einer fest vorgegebenen Beschaffenheit genauer und präziser zu machen, wie etwa eine physikalische Dimension. Dies wird erreicht durch die Eingrenzung aller zufälligen Fehler beim Prozess der Messung. Unter geeigneten Umständen wie etwa der Berechnung des Durchmessers eines Balles mittels einer Schublehre können multiple Messungen einen präziseren mittleren Durchmesser ergeben. Grund hierfür ist, dass sich die Zufallsfehler bei der Ablesung auf der Schublehre gegenseitig herausmitteln und die Präzision durch die Standardabweichung gegeben wird, welche invers abhängig ist von der Quadratwurzel der Anzahl der Messungen.

Ein anderer allgemeiner Zweck ist es, die Eigenschaften einer Variablen zu charakterisieren, indem man multiple repräsentative Messungen durchführt und die Häufigkeitsverteilung der Messungen beschreibt. Dies kann graphisch erfolgen oder mittels statistischer Parameter wie Mittelwert, Standardabweichung und Asymmetrie/Wölbung [skewness/kurtosis]. Da jedoch die gemessenen Eigenschaften variieren, wird es problematisch, die Fehler bei den Messungen von der Variabilität der Eigenschaften zu trennen. Folglich erfahren wir mehr darüber, wie die Eigenschaft variiert, als über die Verteilung des zentralen Wertes. Und doch konzentrieren sich Klimatologen auf die arithmetischen Mittel sowie die daraus errechneten Anomalien. Mittelwerte können Informationen verschleiern, sowohl absichtlich als auch unabsichtlich.

Damit im Hinterkopf müssen wir untersuchen, ob zahlreiche Messungen der Temperaturen auf dem Festland, den Ozeanen und der Luft uns wirklich einen präzisen Wert für die „Temperatur“ der Erde vermitteln können.

Die „Temperatur“ der Erde

Der Konvention zufolge ist das Klima üblicherweise definiert als das Mittel meteorologischer Parameter über einen Zeitraum von 30 Jahren. Wie können wir die verfügbaren Temperaturdaten verwenden, welche zum Zwecke der Wetterüberwachung und -vorhersage ermittelt werden, um das Klima zu charakterisieren? Das gegenwärtig angewendete Verfahren ist die Berechnung eines arithmetischen Mittels für eine willkürliche Referenzperiode und dann die Subtraktion tatsächlicher Temperaturmessungen (entweder individuelle Werte oder Mittelwerte) von dieser Referenzperiode, um etwas zu erhalten, was man Anomalie nennt. Was jedoch bedeutet es, alle Temperaturdaten zu sammeln und das Mittel zu berechnen?

Befände sich die Erde im thermodynamischen Gleichgewicht, würde es nur eine Temperatur geben, die zu messen recht einfach wäre. Die Erde hat aber nicht nur eine Temperatur, sondern eine unendliche Vielfalt von Temperaturen. Tatsächlich variiert die Temperatur ununterbrochen horizontal, vertikal und mit der Zeit, was eine unendliche Anzahl von Temperaturen ergibt. Die offensichtliche Rekord-Tiefsttemperatur beträgt -135,8°F [ca. -93,2°C] und die aufgezeichnete Höchsttemperatur 159,3°F [ca. 70,7°C]. Die maximale Bandbreite beträgt also 295,1°F, die geschätzte Standardabweichung etwa 74°F, dem Empirischen Gesetz zufolge. Änderungen von weniger als einem Jahr sind sowohl zufällig als auch saisonal, längere Zeitreihen enthalten periodische Änderungen. Die Frage lautet, ob das Sammeln [von Daten an] einigen tausend Stellen über eine Periode von Jahren uns einen Mittelwert geben kann, welcher einen vertretbaren Wert beim Aufzeigen einer geringen Änderungsrate liefert?

Eines der Probleme ist, dass Wassertemperaturen dazu neigen, geschichtet aufzutreten. Die Wassertemperatur an der Oberfläche neigt dazu, die wärmste Schicht zu sein, darunter nimmt die Temperatur mit der Tiefe ab. Oftmals gibt es eine abrupte Änderung der Temperatur, Thermokline genannt. Außerdem kann aufwallendes Tiefenwasser kaltes Wasser an die Oberfläche bringen, vor allem entlang von Küsten. Daher ist die Lokalisierung und Tiefe der Datenproben entscheidend bei der Berechnung so genannter Meeresoberflächen-Temperaturen (SST). Des Weiteren muss berücksichtigt werden, dass – weil Wasser eine um 2 bis 5 mal höhere spezifische Wärme aufweist als normale Flüssigkeiten und eine vier mal höhere als Luft – es sich viel langsamer erwärmt als das Festland! Es ist unangebracht, SSTs mit Festlandstemperaturen zu mitteln. Das ist ein klassischer Fall eines Vergleiches von Äpfeln und Birnen. Falls jemand Trends der sich ändernden Temperatur erkennen will, können sie auf dem Festland offensichtlicher hervortreten als über den Ozeanen, obwohl Wassertemperaturen dazu neigen, Zufalls-Fluktuationen zu unterdrücken. Es ist vermutlich am besten, SSTs mit einer Skala zu plotten, die vier mal so groß ist wie bei den Festlandstemperaturen und beide in die gleiche Graphik einzutragen zum Vergleich.

Bei Temperaturen auf dem Festland ergibt sich oftmals das ähnlich gelagerte Problem von Temperatur-Inversionen, das heißt, es ist in den bodennahen Luftschichten kälter als in größerer Höhe darüber. Dies ist das Gegenteil dessen, was die Adiabate vorgibt, dass nämlich die Temperatur in der Troposphäre mit der Höhe abzunehmen hat. Aber dies stellt uns vor ein weiteres Problem. Temperaturen werden in Höhen aufgezeichnet, die in einem Bereich von unter dem Meeresspiegel (Death Valley) bis über 3000 Metern Seehöhe liegen. Anders als es die Allgemeine Gasgleichung vorgibt, welche die Eigenschaften eines Gases bei Standard-Temperatur und -Druck festlegt, werden alle Wetter-Temperaturmessungen bei der Mittelung in einen Topf geworfen, um ein arithmetisches Mittel der globalen Temperatur zu erhalten ohne Berücksichtigung der Standard-Drücke. Dies ist wichtig, weil die Allgemeine Gasgleichung vorgibt, dass die Temperatur eines Luftpaketes mit abnehmenden Druck abnimmt, was das Temperaturgefälle steigen lässt.

Historische Aufzeichnungen (vor dem 20.Jahrhundert) sind besonders problematisch, weil Temperaturen nur auf das nächste ganze Grad Fahrenheit abgelesen wurden – von Freiwilligen, die keine professionellen Meteorologen waren. Außerdem war die Technologie von Temperaturmessungen nicht ausgereift, besonders hinsichtlich standardisierter Thermometer.

Klimatologen haben versucht, die oben beschriebenen zusammengewürfelten Faktoren zu umschreiben mit der Überlegung, dass Genauigkeit und damit Präzision verbessert werden kann durch Mittelbildung. Als Grundlage ziehen sie 30-Jahres-Mittel jährlicher Mittel monatlicher Mittel heran, womit sie die Daten glätten und Informationen verlieren! Tatsächlich besagt das ,Gesetz über Große Zahlen‘, dass die Genauigkeit gesammelter Stichproben verbessert werden kann (falls keine systematischen Verzerrungen präsent sind!). Dies gilt besonders für probabilistische Ereignisse wie etwa das Werfen einer Münze. Falls jedoch jährliche Mittelwerte aus monatlichen Mittelwerten abgeleitet werden anstatt aus täglichen Mittelwerten, dann sollten die Monate gewichtet werden der Anzahl der Tage in jenem Monat gemäß. Es ist unklar, ob dies gemacht wird. Allerdings werden selbst tägliche Mittelwerte extrem hohe und tiefe Temperaturen glätten und somit die vorhandene Standardabweichung reduzieren.

Jedoch selbst wenn man die oben beschriebenen Probleme nur vorübergehend ignoriert, gibt es das fundamentale Problem zu versuchen, Lufttemperaturen an der Erdoberfläche präziser und genauer zu erfassen. Anders als der Ball mit im Wesentlichen einem Durchmesser (mit minimaler Exzentrizität) ändert sich die Temperatur an jedem Punkt der Erdoberfläche ständig. Es gibt keine einheitliche Temperatur für irgendeine Stelle zu irgendeinem Zeitpunkt. Und man hat nur eine Gelegenheit, jene vergängliche Temperatur zu messen. Man kann nicht multiple Messungen durchführen, um die Präzision einer bestimmten Messung der Lufttemperatur präziser machen!

Temperatur-Messungen

Höhlen sind dafür bekannt, stabile Temperaturen aufzuweisen. Viele variieren um weniger als ±0,5°F jährlich. Allgemein wird angenommen, dass die Temperatur der Höhle eine mittlere jährliche Lufttemperatur an der Oberfläche reflektieren, jedenfalls an der Stelle, an der sich die Höhle befindet. Während die Lage ein wenig komplexer ist, ist es doch eine gute Approximation erster Ordnung. (Zufälligerweise gibt es einen interessanten Beitrag von Perrier et al. (2005) über einige sehr frühe Arbeiten in Frankreich hinsichtlich Temperaturen im Untergrund. Zur Illustration wollen wir einmal annehmen, dass ein Forscher die Notwendigkeit sieht, die Temperatur einer Höhle während einer bestimmten Jahreszeit zu bestimmen. Der Forscher möchte diese Temperatur mit größerer Präzision ermitteln als es ein durch die Gänge getragenes Thermometer vermag. Der Wert sollte nahe dem nächsten Zehntelgrad Fahrenheit liegen. Diese Situation ist ein ziemlich guter Kandidat für multiple Messungen zur Verbesserung der Präzision, weil es über einen Zeitraum von zwei oder drei Monaten kaum Temperaturänderungen geben dürfte und die Wahrscheinlichkeit hoch ist, dass die gemessenen Werte normalverteilt sind. Die bekannte jährliche Bandbreite gibt an, dass die Standardabweichung unter (50,5 – 49,5)/4 oder etwa 0,3°F liegen sollte. Daher ist die Standardabweichung der jährlichen Temperaturänderung von gleicher Größenordnung wie die Auflösung des Thermometers. Weiter wollen wir annehmen, dass an jedem Tag, wenn die Stelle aufgesucht wird, der Forscher als Erstes und als Letztes die Temperatur abliest. Nach 100 Temperaturmessungen werden die Standardabweichung und der Standardfehler des Mittelwertes berechnet. Unter der Voraussetzung, dass es keine Ausreißer gibt und das alle Messungen um wenige Zehntelgrad um den Mittelwert verteilt sind, ist der Forscher zuversichtlich, dass es gerechtfertigt ist, den Mittelwert bekanntzugeben mit einer signifikanten Zahl mehr als das Thermometer direkt zu messen in der Lage war.

Jetzt wollen wir dies mit der allgemeinen Praxis im Bereich Klimatologie kontrastieren. Klimatologen verwenden meteorologische Temperaturen, die vielleicht von Individuen abgelesen werden mit geringerem Interesse an gewissenhaften Beobachtungen als die einschlägige Forscher haben. Oder Temperaturen wie etwa von den automatisierten ASOS können zum nächsten ganzen Grad Fahrenheit gerundet und zusammen gebracht werden mit Temperaturwerten, die zum nächsten Zehntelgrad Fahrenheit gerundet sind. (Zu allermindest sollten die Einzelwerte invers zu ihrer Präzision gewichtet werden). Weil die Daten eine Mittelung (Glättung) durchlaufen, bevor das 30-Jahre-Referenzmittel berechnet wird, scheint die Datenverteilung zusätzlich weniger verzerrt und mehr normalverteilt, und die berechnete Standardabweichung ist kleiner als sie es bei Verwendung der Rohdaten wäre. Es ist nicht nur die Mitteltemperatur, die sich jährlich ändert. Die Standardabweichung und Verzerrung ändert sich mit Sicherheit ebenfalls, aber dazu werden keine Angaben gemacht. Sind die Änderungen der Standardabweichung und der Verzerrung zufälliger Natur oder gibt es einen Trend? Falls es einen Trend gibt, was ist dafür die Ursache? Was bedeutet das, falls es überhaupt etwas bedeutet? Da sind Informationen, die nicht untersucht und bekannt gegeben werden, obwohl sie Einsichten in die Dynamik des Systems vermitteln können.

Man gewinnt sofort den Eindruck, dass die bekannten höchsten und tiefsten Temperaturen (siehe oben) zeigen, dass die Datensammlung eine Bandbreite bis zu 300°F haben kann, wenngleich auch näher bei 250°F. Wendet man zur Schätzung der Standardabweichung die Empirische Regel an, würde man einen Wert über 70°F dafür vorhersagen. Geht man konservativer vor und zieht man das Tschbycheff’sche Theorem heran und teilt durch 8 anstatt durch 4, ergibt sich immer noch eine Schätzung über 31°F. Außerdem gibt es gute Gründe für die Annahme, dass die Häufigkeitsverteilung der Temperaturen verzerrt ist mit einem langen Schwanz auf der kalten Seite. Im Kern dieses Arguments steht die Offensichtlichkeit, dass Temperaturen unter 50°F unter Null normaler sind als Temperaturen über 150°F, während das bekannt gemachte Mittel der globalen Festlands-Temperaturen nahe 50°F liegt.

Im Folgenden wird gezeigt, wie meiner Ansicht nach die typischen jährlichen Rohdaten aussehen sollten, wenn sie als Häufigkeitsverteilung geplottet werden, wobei man die bekannte Bandbreite, die geschätzte Standardabweichung und das veröffentlichte Mittel berücksichtigt:

Die dicke, rote Linie repräsentiert die typischen Temperaturen eines Jahres, die kurze grüne Säule (in der Skala eingeordnet) repräsentiert die Temperatur in einer Höhle bei obigem Temperatur-Szenario. Ich bin zuversichtlich, dass das Mittel der Höhlentemperatur bis zu einem Hundertstel Grad Fahrenheit präzise ist, aber trotz der gewaltigen Anzahl von Messungen der Temperatur auf der Erde bringe ich Gestalt und Verteilung der globalen Daten längst nicht die gleiche Zuversicht für die globalen Temperaturen auf! Es ist offensichtlich, dass die Verteilung eine erheblich größere Standardabweichung aufweist als die Höhlentemperatur, und die Rationalisierung mittels Teilung der Quadratwurzel der Anzahl kann nicht gerechtfertigt sein, um Zufallsfehler zu eliminieren, wenn der gemessene Parameter niemals zweimal den gleichen Wert aufweist. Die multiplen Schritte der Mittelung der Daten reduziert Extremwerte und die Standardabweichung. Die Frage lautet: „Ist die behauptete Präzision ein Artefakt der Glättung, oder ergibt das Glättungsverfahren einen präziseren Wert?“ Darauf weiß ich keine Antwort. Es ist jedoch mit Sicherheit etwas, das diejenigen beantworten und rechtfertigen sollten, die die Temperatur-Datenbasis erstellen!

Zusammenfassung

Die Theorie der anthropogenen globalen Erwärmung prophezeit, dass man die stärksten Auswirkungen nachts und im Winter sehen wird. Das heißt, der kalte Schwanz in der Kurve der Häufigkeitsverteilung sollte sich verkürzen und die Verteilung symmetrischer werden. Dies würde die berechnete globale Mitteltemperatur zunehmen lassen, selbst wenn sich die Temperaturen im hohen und mittleren Bereich gar nicht ändern. Die Prophezeiungen zukünftiger katastrophaler Hitzewellen basieren auf der unausgesprochenen Hypothese, dass mit der Zunahme des globalen Mittels sich die gesamte Kurve der Häufigkeitsverteilung hin zu höheren Temperaturwerten verschieben würde. Das ist keine gewünschte Hypothese, weil die Differenz zwischen täglichen Höchst- und Tiefsttemperaturen während des 20. Jahrhunderts nicht konstant war. Sie bewegen sich nicht in Stufen, möglicherweise weil es unterschiedliche Faktoren gibt, welche die Höchst- und Tiefstwerte beeinflussen. Tatsächlich waren einige der tiefsten Tiefsttemperaturen in der Gegenwart gemessen worden! In jedem Falle ist eine globale Mitteltemperatur keine gute Maßzahl für das, was mit den globalen Temperaturen passiert. Wir sollten die Trends der täglichen Höchst- und Tiefsttemperaturen in allen Klimazonen betrachten, wie sie durch physikalische Geographen definiert worden sind. Wir sollten auch die Form der Häufigkeits-Verteilungskurven für verschiedene Zeiträume analysieren. Der Versuch, das Verhalten des ,Klimas‘ der Erde mit einer einzelnen Zahl zu charakterisieren, ist keine gute Wissenschaft, ob man nun an Wissenschaft glaubt oder nicht.

Link: https://wattsupwiththat.com/2017/04/23/the-meaning-and-utility-of-averages-as-it-applies-to-climate/

Übersetzt von Chris Frey EIKE




Sind die behaup­teten globalen Rekord-Tempera­turen haltbar?

Ich möchte den geneigten Leser auf das folgende Zitat von Taylor (1982) aufmerksam machen:

Der wichtigste Punkt hinsichtlich der Messungen unserer beiden Experten ist: Wie bei den meisten wissenschaftlichen Messreihen wären beide wertlos gewesen, falls sie nicht zuverlässige Aussagen bzgl. ihrer Unsicherheiten enthalten“.

Bevor ich fortfahre ist es wichtig, dass der Leser den Unterschied zwischen Genauigkeit und Präzision versteht. Genauigkeit sagt, wie nahe eine Messung (oder eine Reihe wiederholter Messungen) am tatsächlichen Wert liegt, und Präzision ist die Auflösung, mit der die Messung angegeben werden kann. Eine weitere Möglichkeit zum Verständnis bietet die folgende Graphik:

Die Abbildung impliziert, dass Reproduzierbarkeit oder verringerte Varianz Teil von Präzision ist. Das ist so, aber noch wichtiger ist die Fähigkeit, mit größerer Sicherheit aufzuzeichnen, wo eine Messung im Kontinuum einer Messskala lokalisiert ist. Geringe Genauigkeit ist die Folge systematischer Fehler. Sehr geringe Präzision jedoch, welche sich aus Zufallsfehlern oder ungeeigneter Instrumentierung ergibt, kann dazu beitragen, dass individuelle Messungen geringe Genauigkeit haben.

Genauigkeit

Um die folgende Diskussion nicht zu sehr ausufern zu lassen, werde ich Dinge wie Fehler bei den Örtlichkeiten bei der Aufstellung von Wetterstationen ignorieren, welche potentiell repräsentative Temperaturen korrumpieren und einen Bias einbringen können. Hier kann man sich einen Überblick über diese Probleme verschaffen. Ebenso werde ich die Art und Weise der Datengewinnung ignorieren, welche ein wesentlicher Kritikpunkt bei historischen pH-Messungen war, doch gilt dieses Problem nicht weniger stark auch für Messungen der Temperatur. Grundsätzlich sind Temperaturen räumlich verzerrt mit einer Überrepräsentanz industrialisierter, städtischer Gebiete in den Mittleren Breiten. Und doch werden diese Werte als für den ganzen Globus repräsentativ angegeben.

Es gibt zwei wesentliche Aspekte hinsichtlich der Vertrauenswürdigkeit gegenwärtiger und historischer Temperaturdaten. Ein Aspekt ist die Genauigkeit der aufgezeichneten Temperaturen über die nutzbare Bandbreite der Temperatur, wie sie in Tabelle 4.1 im folgenden Link beschrieben wird:

http://www.nws.noaa.gov/directives/sym/pd01013002curr.pdf

Im Abschnitt 4.1.3 im o. g. Link liest man:

4.1.3 Allgemeine Instrumente. Der WMO zufolge sind gewöhnliche Thermometer in der Lage, mit hoher Genauigkeit Temperaturen in der Bandbreite zwischen -29°C und 46°C zu messen, wobei der maximale Fehler kleiner ist als 0,2°C…

Im Allgemeinen wird von modernen Temperatur-Messgeräten eine Genauigkeit von ±0,56°C bei der Referenztemperatur verlangt sowie ein Fehler, der kleiner ist als ±1,1°C über den Messbereich. Tabelle 4.2 verlangt, dass die Auflösung (Präzision) 0,06°C beträgt mit einer Genauigkeit von 0,2°C.

In den USA gibt es eines der besten Wetterüberwachungssysteme der Welt. Allerdings sollten Genauigkeit und Präzision in dem Zusammenhang betrachtet werden, wie globale Mittelwerte und historische Temperaturen aus den Aufzeichnungen berechnet werden, im besonderen aus jenen mit geringerer Genauigkeit und Präzision. Es ist extrem schwierig, die Genauigkeit historischer Temperaturaufzeichnungen abzuschätzen, sind doch die Original-Instrumente kaum noch für eine Kalibrierung verfügbar.

Präzision

Der zweite Aspekt ist die Präzision, mit der die Temperaturen aufgezeichnet werden, sowie die sich daraus ergebende Anzahl signifikanter Ergebnisse, wenn die Berechnungen durchgeführt werden wie etwa das Ableiten von Mittelwerten und Anomalien. Dies ist der wichtigste Teil dieser Kritik.

Falls eine Temperatur mit dem nächsten Zehntel eines Grades aufgezeichnet wird, lautet die Konvention, dass deren Wert gerundet oder geschätzt wird. Das heißt, eine Temperaturmessung mit einem Wett von 98,6°F kann zwischen 98,55°F und 98,64°F liegen.

Die allgemeine Faustregel für Addition/Subtraktion lautet, dass rechts vom Komma nicht mehr signifikante Zahlen in der Summe auftauchen als die Anzahl signifikanter Angaben in der am wenigsten präzisen Messung. Bei Multiplikation/Division lautet die allgemeine Faustregel, dass höchstens eine zusätzliche signifikante Zahl im Ergebnis auftaucht im Vergleich mit dem Multiplikanden, welche die am wenigsten signifikanten Angaben enthält. Allerdings folgt man gewöhnlich der Regel, nur so viele signifikante Zahlen zu erhalten wie der am wenigsten präzise Multiplikand enthält. (Eine ausführliche Erklärung all dieser Regeln steht hier).

Anders als in einem Fall mit ganzen Zahlen lässt eine Reduktion der Anzahl signifikanter Angaben bereits um nur eine Messung in einer Reihe die Unsicherheit im Mittel zunehmen. Intuitiv könnte man vermuten, dass die Herabsetzung der Präzision einer oder mehrerer Messungen in einem Datensatz auch die Präzision der Ergebnisse mathematischer Berechnungen reduzieren sollte. Man nehme zum Beispiel an, dass jemand das arithmetische Mittel der Zahlen 50; 40,0 und 30,0 berechnen will, wobei die nach dem Komma stehenden Nullen die letzte signifikante Angabe sind. Die Summe der drei Zahlen beträgt 120 mit drei signifikanten Angaben. Dividiert man durch die ganze Zahl 3 (exakt) erhält man 40,0 mit einer Unsicherheit bei der nachfolgenden Stelle von ± 0,05.

Wie ist das nun aber, wenn wir die implizite Unsicherheit aller Messungen berücksichtigen? Man beachte zum Beispiel, dass im zuvor untersuchten Satz alle Messungen eine implizite Unsicherheit enthalten. Die Summe von 50 ±0,5; 40,0 ±0,05 und 30 ±0,05 beträgt 120,0 ±0,6. Zwar ist das nicht gerade sehr wahrscheinlich, doch könnte es sein, dass alle diese Fehler das gleiche Vorzeichen haben. Das bedeutet, dass der Mittelwert so klein sein kann wie 39,80 oder so groß wie 40,20. Das heißt, dass die Zahl 40,00 ±0,20 abgerundet werden sollte auf 40,0 ±0,2. Vergleicht man diese Ergebnisse mit den zuvor erhaltenen, kann man erkennen, dass es eine Zunahme der Unsicherheit gibt. Die potentielle Differenz zwischen den Grenzen des mittleren Wertes können zunehmen, wenn mehr Daten gemittelt werden.

Es ist vor allem unter Begutachtern [surveyors] allgemein bekannt, dass die Präzision multipler, gemittelter Messwerte invers variiert mit der Quadratwurzel der Anzahl der verwendeten Messungen. Mittelung neigt dazu, den Zufallsfehler bei der Rundung zu entfernen, wenn man einen festen Wert misst. Allerdings sind die Schwächen hier, dass alle Messungen mit dem gleichen Gerät durchgeführt werden müssen, mit dem gleichen festen Parameter wie etwa einer Winkeländerung mit einem Durchgang [an angle turned with a transit]. Außerdem warnt Smirnoff (1961): „bei einer niedrigen Größenordnung der Präzision wird aus wiederholten Messungen keine Zunahme der Genauigkeit folgen“. Dies führt er noch weiter aus mit der Bemerkung: „Implizit ist hier, dass es ein Limit gibt, wie viel der Präzision überhaupt zunehmen kann, während die Definition des Standardfehlers des Mittels die Standardabweichung der Mitglieder ist dividiert durch die Quadratwurzel der Anzahl der Mitglieder. Dieser Prozess kann nicht unendlich oft wiederholt werden, um irgendeine gewünschte Präzision zu erhalten!“

Während mittels einer Vielzahl von Beobachtern ein systematischer Bias dieser Beobachter eliminiert werden kann, sind die anderen Erfordernisse weniger vernachlässigbar. Unterschiedliche Geräte werden unterschiedliche Genauigkeiten aufweisen und können die gemittelten Werte ungenauer machen.

Genauso sagt die Messung unterschiedlicher Betrachtungswinkel einem nichts über Genauigkeit und Präzision eines bestimmten interessierenden Betrachtungswinkels. Folglich sagt einem die Messung multipler Temperaturen über eine Reihe von Stunden oder Tagen nichts über die Unsicherheit der Temperaturwerte an einer gegebenen Stelle zu einer bestimmten Zeit, und es kann auch nichts zur Eliminierung von Rundungsfehlern beitragen. Allerdings sind Temperaturen kurzlebig, und man kann die Temperatur irgendwann später nicht noch einmal messen. Grundsätzlich hat man nur eine Gelegenheit, die präzise Temperatur an einer Stelle zu einer bestimmten Zeit zu bestimmen.

Das Automated Surface Observing System (ASOS) der NOAA verfolgt einen unkonventionellen Weg der Behandlung umgebender Temperaturdaten. Im User’s Guide heißt es in Abschnitt 3.1.2:

Einmal pro Minute berechnet die ACU das 5-minütige Mittel der Umgebungstemperatur und des Taupunktes aus den 1-Minute-Beobachtungen … Diese 5-Minuten-Mittel werden zum nächstgelegenen Grad Fahrenheit gerundet, zum nächsten 0,1 Grad Celsius konvertiert und einmal pro Minute ausgegeben als das 5-Minuten-Mittel der umgebenden Temperatur und des Taupunktes…“.

Dieses automatisierte Verfahren wird mit Temperatursensoren durchgeführt, welche geeicht sind auf einen RMS-Fehler von 0,5°C, einen Maximum-Fehler von ±1,0°C und einer Auflösung von 0,06°C in den wahrscheinlichsten Temperatur-Bandbreiten, die in den kontinentalen USA angetroffen werden. Die Angabe der gerundeten Temperatur in Grad Celsius, wie oben aus dem Zitat hervorgehend, impliziert eine Präzision von 0,1°C, obwohl nur 0,6 ±0,3°C gerechtfertigt sind. Damit wird eine Präzision impliziert, die 3 bis 9 mal größer ist als sie ist. In jedem Falle ist selbst bei der Verwendung modernster Instrumente die Angabe von zwei oder mehr signifikanter Ziffern rechts vom Komma bei Anomalien der verfügbaren Temperaturdaten nicht garantiert!

Konsequenzen

Diese Dinge werden besonders wichtig, wenn die Temperaturdaten aus unterschiedlichen Quellen stammen, wobei unterschiedliche Instrumente mit variierender Genauigkeit und Präzision verwendet werden, um alle verfügbaren globalen Temperaturen zusammenzubringen und zu konsolidieren. Auch werden sie wichtig beim Vergleich historischer mit modernen Daten und besonders bei der Berechnung von Anomalien. Ein bedeutendes Problem mit historischen Daten ist, dass Temperaturen typischerweise nur in ganzen Zahlen gemessen wurden (wie es bei modernen ASOS-Temperaturen der Fall ist!). Folglich weisen die historischen Daten geringe Präzision (und unbekannte Genauigkeit) auf, und die oben genannte Regel für die Subtraktion kommt ins Spiel, wenn man berechnet, was gemeinhin Temperaturanomalie genannt wird. Das heißt, die Daten werden gemittelt, um eine so genannte Temperatur-Grundlinie [einen Temperatur-Referenzwert] zu berechnen, typischerweise für einen Zeitraum von 30 Jahren. Dieser Referenzwert wird von den aktuellen Daten subtrahiert, um eine Anomalie zu definieren. Ein Weg zur Umgehung dieser Subtraktion ist es, das beste verfügbare historische Mittel zu berechnen und danach so zu definieren, als wären genauso viele signifikante Angaben eingegangen wie in moderne Daten. Dann ist es nicht erforderlich, moderne Daten zu beschneiden und zu runden. Man kann dann legitimerweise sagen, wie sich die derzeitigen Anomalien darstellen hinsichtlich des definierten Referenzwertes, obwohl nicht offensichtlich ist, ob die Differenz statistisch signifikant ist. Unglücklicherweise macht man sich nur etwas vor, wenn man glaubt, dass diese Anomalien irgendetwas darüber aussagen können wie aktuelle Temperaturdaten im Vergleich zu historischen Temperaturdaten dastehen, wenn die Variationen nur rechts des Kommas zu finden sind!

Bezeichnend für das Problem ist, dass die von der NASA veröffentlichten Daten bei Anomalien am Ende des 19. Jahrhunderts und aktuelle Anomalien die gleiche implizite Präzision aufweisen (±0,005°C). Der Charakter der Datentabelle mit der Eingabe von 1 bis 3 Ziffern ohne Komma zeigt, dass die Aufmerksamkeit für signifikante Angaben wenig Berücksichtigung gefunden hat. Sogar noch ungeheuerlicher ist die Repräsentation einer Präzision von ±0,0005°C für Anomalien in einem Wikipedia-Beitrag, in welchem die NASA als Quelle angegeben wird.

Idealerweise sollte man eine kontinuierliche Aufzeichnung von Temperaturen über einen Zeitraum von 24 Stunden haben und die Fläche unter dem Temperatur-Zeit-Graphen integrieren, um eine wahre mittlere tägliche Temperatur zu erhalten. Allerdings ist diese Art einer Temperaturreihe nur selten, was besonders für ältere Daten gilt. Folglich müssen wir mit den Daten, die wir haben, alles in unserer Macht Stehende tun, was oftmals eine Bandbreite von Tag zu Tag ist. Zieht man die tägliche Höchst- bzw. Tiefsttemperatur heran und mittelt diese separat, gibt dies einen Einblick, wie sich Temperaturen an einer Station mit der Zeit ändern. Beweise zeigen, dass die Höchst- und Tiefsttemperaturen sich während der letzten 100 Jahre nicht in gleicher Weise geändert haben – bis vor Kurzem, als die Tiefsttemperaturen rascher gestiegen sind als die Höchsttemperaturen. Das bedeutet, sogar auch für langfristig gut betreute Wetterstationen, dass wir kein wahres Mittel der Temperatur mit der Zeit haben. Im besten Falle haben wir einen Mittelwert der täglichen Höchst- und Tiefsttemperaturen. Diese zu mitteln erzeugt ein Artefakt, bei welchem Informationen verloren gehen.

Wenn man ein Mittel berechnet zum Zwecke einer wissenschaftlichen Analyse wird diese konventionell mit einer Standardabweichung gezeigt, also einer Maßzahl der Variabilität der individuellen Einzelwerte innerhalb der Stichprobe. Ich habe bis heute noch keine einzige veröffentlichte Standardabweichung gesehen im Zusammenhang mit jährlichen globalen Temperatur-Mittelwerten. Wendet man jedoch das Theorem von Tchebysheff und die Empirische Regel (Mendenhall 1975) an, können wir mit einer konservativen Schätzung der Standardabweichung für globale Mittelwerte aufwarten. Das heißt, die Bandbreite der globalen Temperaturen sollte angenähert vier mal die Standardabweichung sein (Range ≈ ±4s). Bedenkt man jetzt, dass sommerliche Temperaturen in der Wüste etwa 130°F [ca. 54°C] und winterliche Temperaturen in der Antarktis -120°F [ca. -84°C] erreichen können, ergibt sich eine jährliche Bandbreite der Temperatur auf der Erde von mindestens 250°F [ca. 140 K] und damit eine geschätzte Standardabweichung von etwa 31°F [ca. 17 K]! Weil es in Wüsten und den Polargebieten kaum Messungen gibt, ist es wahrscheinlich, dass die Bandbreite (und damit die Standardabweichung) größer ist als meinen Vermutungen zufolge. Man sollte intuitiv den Verdacht haben, dass die Standardabweichung für das Mittel hoch ist, liegen doch nur wenige der globalen Messungen nahe dem Mittelwert! Und trotzdem werden globale Anomalien allgemein mit signifikanten Angaben rechts vom Komma präsentiert! Die Mittelung der jährlichen Höchsttemperaturen separat von den jährlichen Tiefstwerten würde die geschätzte Standardabweichung deutlich reduzieren, aber es würde immer noch nicht die Präzision rechtfertigen, von der allgemein die Rede ist. Diese geschätzte Standardabweichung sagt uns möglicherweise mehr über die Häufigkeitsverteilung von Temperaturen als die Präzision, die bzgl. des Mittels bekannt ist. Sie sagt, dass möglicherweise etwas mehr als zwei Drittel der aufgezeichneten Temperaturen zwischen -26°F und +36°F liegen [ca. zwischen -32°C und +2°C]. Weil der Zentralwert [median] dieser Bandbreite 5,0°F[*] beträgt und die allgemein akzeptierte mittlere globale Temperatur bei etwa 59°F [ca. 15°C], zeigt dies, dass es noch einen langen Schwanz bei dieser Verteilung gibt, was die Schätzung des Zentralwertes hin zu einer niedrigeren Temperatur verzerrt.

[*Die Umrechnung der absoluten Fahrenheit-Temperaturen in Grad Celsius ist einfach, aber der angegebene Zentralwert von 5°F lässt sich nicht umrechnen. Nehme ich den Zentralwert der Celsius-Angaben, komme ich auf einen Wert bei 15 K. Wahrscheinlich unterläuft mir hier ein logischer Denkfehler, aber ich bekenne, dass ich ihn nicht finden kann. Anm. d. Übers.]

Summary

Zusammengefasst lässt sich sagen, dass es zahlreiche Arten der Datenbehandlung gibt, welche Klimatologen allgemein ignorieren. Sie kompromittieren ernsthaft die Wahrhaftigkeit der Behauptungen über rekordhohe Mitteltemperaturen und reflektieren eine ärmliche [poor] Wissenschaft. Die statistische Signifikanz von Temperaturunterschieden 2 oder sogar 3 Stellen nach dem Komma ist höchst fragwürdig. Die Anwendung des Verfahrens der Berechnung des Standardfehlers des Mittelwertes, um dessen Präzision zu verbessern, wird nicht gerechtfertigt durch das Entfernen von Zufallsfehlern, weil es keinen festgelegten einzelnen Wert gibt, um den sich die Zufallsfehler verteilen. Das globale Mittel ist ein hypothetisches Konstrukt, welches in der Natur nicht existiert. Stattdessen ändern sich Temperaturen; sie erzeugen variable Fehler systematischer Art. Echte Wissenschaftler sind besorgt hinsichtlich der Größenordnung und des Ursprungs der unvermeidlichen Fehler in ihrem Messungen.

References

Mendenhall, William, (1975), Introduction to probability and statistics, 4th ed.; Duxbury Press, North Scituate, MA, p. 41

Smirnoff, Michael V., (1961), Measurements for engineering and other surveys; Prentice Hall, Englewood Cliffs, NJ, p.181

Taylor, John R., (1982), An introduction to error analysis – the study of uncertainties in physical measurements; University Science Books, Mill Valley, CA, p.6

Link: https://wattsupwiththat.com/2017/04/12/are-claimed-global-record-temperatures-valid/

Übersetzt von Chris Frey EIKE

Anmerkung: Der Autor hat zu diesem Grundlagen-Artikel einen Folgebeitrag geschrieben, in welchem er diese Erkenntnisse auf die gegenwärtige Mainstream-„Klimaforschung“ überträgt. Dieser befindet sich in der Übersetzung und wird in einigen Tagen ebenfalls hier gepostet. – C. F.