2022 Sommersemester

Computer Age Statistical Inference

Wir werden uns das im Sommer 2021 erschienene Buch „Computer Age Statistical Inference – Student Edition“ vornehmen. Das Ziel wird es sein, die dort vorgestellten Methoden zu ergründen.

Den nicht eindeutig trennbaren Begriffen „artificial intelligence“, „machine learning“ und „data science“ liegen konkrete statistische Methoden zugrunde. Ihre Eignung zur Lösung konkreter Probleme und ihre Popularität haben sich im Laufe der Zeit verändert. Das Buch folgt der zeitlichen Entstehung der relevanten Methoden und beschreibt konkret, welche Fragestellungen sich mit welcher Methode erfolgreich angehen lassen.

Im Seminar werden wir mit den klassischen Methoden beginnen, der Schwerpunkt wird auf die aktuell besonders erfolgreichen entscheidungsbaumbasierten Modelle sowie auf die neuronalen Netze gelegt.

Eine mathematische Einführung dieser Methoden ist unser Hauptziel, nicht deren Einsatz unter Verwendung von konkreten Libraries in Python oder R. Dennoch versuche ich, neben dem Vortragsthema zusätzlich eine Aufgabe zu vergeben. (Daher der Bezug oben auf die „Student Edition“ des Buches.)

Die Vorträge im Seminar sollen auf Englisch gehalten werden. (Motivation hierfür: Das Seminar soll Sie u. a. ein Stück weit auf den späteren Beruf vorbereiten. Und da kommt es immer wieder vor, dass man spontan über einen Sachverhalt auf Englisch berichten soll.) In begründeten Ausnahmefällen sind Vorträge auf Deutsch möglich.

Es gibt keine festen Voraussetzungen für die Teilnahme am Seminar. Sicherlich vom Vorteil sind:

  • Kenntnisse in Wahrscheinlichkeitstheorie und Statistik
  • Programmierkenntnisse z. B. R oder Python, falls eine Aufgabe bearbeitet wird (aber auch ohne Vorkenntnisse soll es kein Problem sein, eine der Aufgaben in vertretbarer Zeit zu lösen)

Anmeldung erfolgt per E-Mail, diese ist unter https://www.mi.uni-koeln.de/wp-znikolic/kontakt/ zu finden.

Bitte melden Sie sich mit einer aussagekräftigen Bewerbung an, welche u. a. folgende Angaben enthalten soll:

  • Ihre bisher besuchten (relevanten) Veranstaltungen,
  • alle relevanten Praktika, Werkstudententätigkeiten, Seminararbeiten usw., welche mit dem Thema des Seminars zusammenhängen können,
  • weshalb Sie sich für dieses Thema interessieren,
  • ob Sie das Seminar im Rahmen des Versicherungsmoduls mit 3 Leistungspunkten oder als Seminar mit 6 Leistungspunkten belegen möchten.

Gerne können Sie Ihre Bewerbung um weitere Punkte ergänzen. Die Bewerbung soll vor allem vermitteln, dass Sie sich für das behandelte Thema interessieren und mehr darüber lernen möchten.

Literatur:

Übersicht der Vorträge:

NameDatumVortragsthemaDescription
Lehmann06.05.22Mortality ModelingExplanation of historical mortality data, the problem of prediction and the Lee-Carter model
Kopp13.05.22Jackknife + Bootstrap Method and Bootstrap
Confidence Intervals
Explain the jackknife and bootstrap and how bootstrap enables a derivation of confidence intervals. Implement a small demonstration of bootstrap confidence intervals in code: Sample from one non symmetric distribution e. g. 500 values and calculate several quantiles with bootstrap. In R or Python.
Schäfer, Otto20.05.22Generalized Linear Models + fitting mortality dataIntroduce Poisson, logistic regression as well as GLM in general. Choose one of CASI 8.1, 8.2, 8.3
the models and fit it to the mortality data. Explain why you have chosen the model and comment the results. In R or Python.
Hacker, Schummer03.06.22Decision Trees, Random Forests, Boosting + fitting mortality dataIntroduce decision-tree based methods, in particular bagging, random forests and gradient boosting. Fit one of the models for the mortality data. Comment on extrapolation problem and offer a reasonable extension of decision trees
which would allow extrapolation. In R or Python.
Gunawan, Chen17.06.22Neural Networks + fitting mortality dataThe neural networks should be introduced and in particular the recurrent neural networks. The mortality data should be fitted with recurrent neural networks in R.
Leifhelm, Flock24.06.22Support Vector Machines and Kernel Methods + fitting mortality dataIntroduce SVM and kernel methods and decide how to set up a regression model using the mortality data and the extrapolation problem. Fit a model in R or Python and comment the results.
Ince24.06.22Parametric Models and Exponential FamiliesIntroduce and explain parametric models and the idea of exponential families. Also introduce the difference between frequentist and Bayesian approaches.