2022 Sommersemester | Zoran Nikolić

Computer Age Statistical Inference

Wir werden uns das im Sommer 2021 erschienene Buch „Computer Age Statistical Inference – Student Edition“ vornehmen. Das Ziel wird es sein, die dort vorgestellten Methoden zu ergründen.

Den nicht eindeutig trennbaren Begriffen „artificial intelligence“, „machine learning“ und „data science“ liegen konkrete statistische Methoden zugrunde. Ihre Eignung zur Lösung konkreter Probleme und ihre Popularität haben sich im Laufe der Zeit verändert. Das Buch folgt der zeitlichen Entstehung der relevanten Methoden und beschreibt konkret, welche Fragestellungen sich mit welcher Methode erfolgreich angehen lassen.

Im Seminar werden wir mit den klassischen Methoden beginnen, der Schwerpunkt wird auf die aktuell besonders erfolgreichen entscheidungsbaumbasierten Modelle sowie auf die neuronalen Netze gelegt.

Eine mathematische Einführung dieser Methoden ist unser Hauptziel, nicht deren Einsatz unter Verwendung von konkreten Libraries in Python oder R. Dennoch versuche ich, neben dem Vortragsthema zusätzlich eine Aufgabe zu vergeben. (Daher der Bezug oben auf die „Student Edition“ des Buches.)

Die Vorträge im Seminar sollen auf Englisch gehalten werden. (Motivation hierfür: Das Seminar soll Sie u. a. ein Stück weit auf den späteren Beruf vorbereiten. Und da kommt es immer wieder vor, dass man spontan über einen Sachverhalt auf Englisch berichten soll.) In begründeten Ausnahmefällen sind Vorträge auf Deutsch möglich.

Es gibt keine festen Voraussetzungen für die Teilnahme am Seminar. Sicherlich vom Vorteil sind:

Kenntnisse in Wahrscheinlichkeitstheorie und Statistik
Programmierkenntnisse z. B. R oder Python, falls eine Aufgabe bearbeitet wird (aber auch ohne Vorkenntnisse soll es kein Problem sein, eine der Aufgaben in vertretbarer Zeit zu lösen)

Anmeldung erfolgt per E-Mail, diese ist unter https://www.mi.uni-koeln.de/wp-znikolic/kontakt/ zu finden.

Bitte melden Sie sich mit einer aussagekräftigen Bewerbung an, welche u. a. folgende Angaben enthalten soll:

Ihre bisher besuchten (relevanten) Veranstaltungen,
alle relevanten Praktika, Werkstudententätigkeiten, Seminararbeiten usw., welche mit dem Thema des Seminars zusammenhängen können,
weshalb Sie sich für dieses Thema interessieren,
ob Sie das Seminar im Rahmen des Versicherungsmoduls mit 3 Leistungspunkten oder als Seminar mit 6 Leistungspunkten belegen möchten.

Gerne können Sie Ihre Bewerbung um weitere Punkte ergänzen. Die Bewerbung soll vor allem vermitteln, dass Sie sich für das behandelte Thema interessieren und mehr darüber lernen möchten.

Literatur:

Efron, B., Hastie, T.: Computer Age Statistical Inference – Student Edition, Stanford University, California (2021), https://doi.org/10.1017/9781108914062 .

Übersicht der Vorträge:

Name	Datum	Vortragsthema	Description
Lehmann	06.05.22	Mortality Modeling	Explanation of historical mortality data, the problem of prediction and the Lee-Carter model
Kopp	13.05.22	Jackknife + Bootstrap Method and Bootstrap Confidence Intervals	Explain the jackknife and bootstrap and how bootstrap enables a derivation of confidence intervals. Implement a small demonstration of bootstrap confidence intervals in code: Sample from one non symmetric distribution e. g. 500 values and calculate several quantiles with bootstrap. In R or Python.
Schäfer, Otto	20.05.22	Generalized Linear Models + fitting mortality data	Introduce Poisson, logistic regression as well as GLM in general. Choose one of CASI 8.1, 8.2, 8.3 the models and fit it to the mortality data. Explain why you have chosen the model and comment the results. In R or Python.
Hacker, Schummer	03.06.22	Decision Trees, Random Forests, Boosting + fitting mortality data	Introduce decision-tree based methods, in particular bagging, random forests and gradient boosting. Fit one of the models for the mortality data. Comment on extrapolation problem and offer a reasonable extension of decision trees which would allow extrapolation. In R or Python.
Gunawan, Chen	17.06.22	Neural Networks + fitting mortality data	The neural networks should be introduced and in particular the recurrent neural networks. The mortality data should be fitted with recurrent neural networks in R.
Leifhelm, Flock	24.06.22	Support Vector Machines and Kernel Methods + fitting mortality data	Introduce SVM and kernel methods and decide how to set up a regression model using the mortality data and the extrapolation problem. Fit a model in R or Python and comment the results.
Ince	24.06.22	Parametric Models and Exponential Families	Introduce and explain parametric models and the idea of exponential families. Also introduce the difference between frequentist and Bayesian approaches.