Statistical Analysis and Modeling Group

Welcome to the Statistical Analysis and Modeling Group! The Group is a part of the Institute of Computer Science of the Polish Academy of Sciences. The Group's research activities concern probabilistic and statistical modeling of natural phenomena and statistical inference for constructed models.

The Group maintains strong links with the Faculty of Mathematics and Information Sciences of the Warsaw University of Technology where several of its members teach courses and pursue joint research.

People Research Publications

Group Seminar

The seminar of the Statistical Analysis and Modeling Group usually takes place on Mondays at 15:00 in room 234 on the second floor of the Institute of Computer Science of the Polish Academy of Sciences (IPI PAN). The talks are usually delivered in Polish.

Date Speaker Title Slides
24.02.2020 Łukasz Dębowski Losowość algorytmiczna: Podstawowe idee i problemy (cz II)
ABSTRACT: W referacie omówię przykłady sekwencji losowych i zastosowania aparatu teorii losowości algorytmicznej. Po pierwsze, ważnym przykładem sekwencji losowej w sensie Martina-Loefa jest stała Omega Chaitina, zwana także prawdopodobieństwem stopu. Omega ma kilka paradoksalnych własności, które wiążą się z podstawami matematyki. Po drugie, z punktu widzenia statystyki matematycznej potrzebnym pojęciem jest losowość względem miary z parametrem rzeczywistym. Aby je zdefiniować wprowadzę funkcje rekurencyjne z wyrocznią. Omówię także twierdzenie van Lambalgena i program efektywizacji twierdzeń probabilistycznych. Po trzecie, losowość w sensie Martina-Loefa skontrastuję z innymi pojęciami stochastyczności słów (skończonych) i sekwencji (nieskończonych).
03.02.2020 Łukasz Dębowski Losowość algorytmiczna: Podstawowe idee i problemy (cz I)
ABSTRACT: Pierwszy referat rozpocznę od nakreślenia nieformalnych motywacji, a następnie przedstawię trzy główne podejścia do definicji losowych nieskończonych sekwencji binarnych przez przeliczalne klasy: kodów, martyngałów i zbiorów miary zero. Ponieważ naturalną przeliczalną klasą funkcji jest klasa funkcji rekurencyjnych, omówię ich formalną definicję przez maszyny z rejestrami. Dzięki temu możliwe będzie zdefiniowanie sekwencji losowych w sensie Martina-Loefa i sformułowanie twierdzenia Schnorra o równoważności czterech definicji tych ciągów.
13.01.2020 Piotr Przybyła Pretrenowane modele językowe od podstaw
ABSTRACT: W przetwarzaniu języka naturalnego (NLP) "modelem językowym" nazywamy rozwiązanie problemu przewidywania prawdopodobieństwa wystąpienia słów na podstawie ich kontekstu. W ostatnim czasie w badaniach NLP modele językowe wykorzystuje się jednak do innego celu, tj. jako sposób na przechowywanie "wiedzy językowej" zgromadzonej na bardzo dużym korpusie tekstów w formie głębokiej sieci neuronowej, w celu ich późniejszego wykorzystania do zadania nadzorowanego (np. klasyfikacji tekstów). Podejście to możliwe jest od stosunkowo niedawna, ale pozwala na osiąganie tak dobrych wyników, że stało się dominujące w literaturze dla wielu zadań. Na seminarium zostanie szczegółowo przedstawiona architektura, sposób działania i wykorzystania najpopularniejszego pretrenowanego modelu: BERT. Będzie to wymagało omówienia także rozwiązań w dziedzinie sieci neuronowych dla NLP, na których on bazuje, takich jak architektura Seq2seq, technika "uwagi" i model Transformer.
09.12.2019 Krzysztof Rudaś Properties of uplift estimators for small samples
ABSTRACT: Uplift modeling is an approach, which allows for predicting effect of an action (e.g. new marketing campaign or medical treatment). To achieve this we divide our population into two subgroups: treatment, which is subjected to the action and control on which no action is taken. Then we estimate difference between effects in treatment and control group. We introduced and analysed two basic methods of estimation: double and uplift regression. We also proposed new method, called corrected uplift regression, joining advantages of two previous approaches. We also calculated asymptotic distributions of these estimators. In my presentation I will show basic properties of these three approaches. They can be used to explain behaviour of estimators for small samples, where difference of mean squared error is most significant.
18.11.2019 Grzegorz Wojdyga Wnioskowanie oraz fact-checking w języku naturalnym przy użyciu deep learningu
04.11.2019 Małgorzata Łazęcka Metody selekcji oparte na informacji wzajemnej
21.10.2019 Mieczysław Kłopotek Losowe rzutowanie a analiza skupień na przykładzie k-means
07.10.2019 Mariusz Kubkowski Wnioskowanie przyczynowe — klasyczne wyniki Fishera i Neymana
24.06.2019
13:30, r. 5
Robert Moskovitch Temporal Data Mining with Temporal Abstraction and Time Intervals Analytics
03.06.2019 Barbara Żogała-Siudem Dobór zmiennych w modelach liniowych z wykorzystaniem indeksów wielowymiarowych
20.05.2019 Konrad Furmańczyk Szacowanie błędu klasyfikacji w źle wyspecyfikowanym modelu regresji binarnej
29.04.2019 Tomasz Steifer Losowość algorytmiczna
08.04.2019 Łukasz Dębowski Przegląd własności ergodycznych dla stacjonarnych procesów dyskretnych
25.03.2019 Krzysztof Gogolewski Odporne PCA, wypełnianie braków w macierzach i zastosowania w bioinformatyce
11.03.2019 Piotr Przybyła Oceny ryzyka śmiertelności na podstawie tekstowej dokumentacji medycznej pacjenta jako problem uczenia wielozadaniowego
25.02.2019 Jan Mielniczuk Reguły stopowania dla metod selekcji bazujących na informacji wzajemnej
04.02.2019 Szymon Jaroszewicz Zachowanie regresji liniowej w sytuacji p>n
21.01.2019 Paweł Teisseyre Multi-label learning with parsimonious classifier chains
10.12.2018 Krzysztof Rudaś Shrinkage Estimators for Uplift Regression
26.11.2018 Małgorzata Łazęcka Compressed sensing
19.11.2018 Mariusz Kubkowski Sekwencyjne procedury selekcji i kontrola FDR
29.10.2018 Paweł Teisseyre Szacowanie błędu generalizacji przy użyciu stabilności oraz złożoności Rademachera
15.10.2018 Szymon Jaroszewicz Wstęp do głębokiego uczenia, cz. II. Sieci rekurencyjne
25.06.2018 Szymon Jaroszewicz Wstęp do głębokiego uczenia, cz. I
11.06.2018 Jan Mielniczuk Błąd predykcji w metodzie lasso
28.05.2018 Mariusz Kubkowski Testing the significance of features based on Interaction Information
07.05.2018
   15:30!
Jacek Koronacki Uwagi o rzekomej korelacji między ciągami zmiennych losowych
16.04.2018 Szymon Jaroszewicz Wybór interesujących reguł asocjacyjnych i metoda maksymalizacji entropii
12.03.2018 Paweł Teisseyre O selekcji zmiennych, informacji wzajemnej i informacji interakcyjnej
26.02.2018 Szymon Jaroszewicz O optymalizacji pola pod krzywą ROC (AUC)
05.02.2018 Jan Mielniczuk O pomiarze siły interakcji. Zastosowania w selekcji PDF
22.01.2018 Mariusz Kubkowski Selekcja zmiennych w przypadku źle wyspecyfikowanego modelu binarnego
08.01.2018 Łukasz Dębowski Uniwersalność kodu PPM i informacja wzajemna PDF
18.12.2017 Paweł Teisseyre Selekcja zmiennych uwzględniająca koszty w klasyfikacji wieloetykietowej
27.11.2017 Krzysztof Rudaś Estymacja współczynnika wpływu w modelowaniu przyczynowości
29.05.2017 Szymon Jaroszewicz Modelowanie różnicowe na danych przeżycia
08.05.2017 Mariusz Kubkowski Metoda SIR i jej własności
10.04.2017 Jan Mielniczuk Metoda selekcji MSS w modelach regresyjnych oparta na wielokrotnym podziale próby
27.03.2017 Łukasz Dębowski O problemie identyfikacji w granicy PDF
13.03.2017 Krzysztof Rudaś Properties of linear regression estimators for uplift modeling
27.02.2017 Paweł Teisseyre An information theory approach to discover hidden associations and interactions in biomedical data