Statistical Analysis and Modeling Group

Welcome to the Statistical Analysis and Modeling Group! The Group is a part of the Institute of Computer Science of the Polish Academy of Sciences. The Group's research activities concern probabilistic and statistical modeling of natural phenomena and statistical inference for constructed models.

The Group maintains strong links with the Faculty of Mathematics and Information Sciences of the Warsaw University of Technology where several of its members teach courses and pursue joint research.

People Research Publications

Group Seminar

The seminar of the Statistical Analysis and Modeling Group usually takes place on Mondays at 15:00 in room 234 on the second floor of the Institute of Computer Science of the Polish Academy of Sciences (IPI PAN). The talks are usually delivered in Polish.

Date Speaker Title Slides
10.05.2021 Jan Mielniczuk Phase transtion in logistic regression model
ABSTRACT: W referacie przedstawie wyniki które dotyczą przejścia fazowego w modelu logistycznym w sytuacji, gdy liczba predyktorów zachowuje się jak kappa razy liczność proby. Dla kappa >1/2 estymator ML nie istnieje (co pokazał w swoim doktoracie T. Cover w 1964 roku !), natomiast dla 0< kappa< 1/2 statystyka LRT ma asymptotycznie rozkład będący przeskalowanym rozkładem chi kwadrat, przy czym współczynnik skalowania jest >1. Wynika z tego w szczególności, że stosowanie tw. Wilksa w tej sytuacji prowadzi do braku kontroli nad liczbą fałszywych sygnałów.
19.04.2021 Krzysztof Rudaś Estymacja przyczynowa pod warunkiem częściowej złej specyfikacji modelu
ABSTRACT: Tytuł: Modelowanie przyczynowości zajmuje się przewidywaniem efektu podejmowanej przez nas akcji (nowej kampanii marketingowej, metody leczenia pacjentów) dla pojedynczej obserwacji. W tym celu dzielimy populację na grupę eksperymentalną (poddaną działaniu) i kontrolną (nie poddaną działaniu) przy użyciu randomizacji. W naszych badaniach rozważamy dwa typy randomizacji: całkowitą i prostą. Następnie konstruujemy estymator który liczy różnicę efektów między grupami dla pojedynczej obserwacji. Istnieją dwa podstawowe sposoby estymacji: podwójna i różnicowa. Dodatkowo stworzyliśmy trzecie podejście łączące zalety dwóch wcześniejszych. Określiliśmy także asymptotyczne rozkłady estymatorów przy założeniu pełnej liniowości odpowiedzi i zastosowaniu randomizacji całkowitej. W moim referacie przedstawię asymptotyczne wyniki uzyskane dla wyżej wymienionych estymatorów przy założeniu, że odpowiedź w grupie kontrolnej i część odpowiedzi w grupie eksperymentalnej niezwiązana z efektem akcji są nieliniowe, przy założeniu randomizacji całkowitej. Pokażę również wyniki uzyskane przy założeniu pełnej liniowości zmiennej odpowiedzi i przy randomizacji prostej.
22.03.2021 Wojciech Rejchel Szybka i odporna selekcja cech w modelach regresyjnych
ABSTRACT: Rozważamy problem selekcji cech w modelu Y = g(beta ' X, epsilon), gdzie nieznana funkcja 'g' jest rosnąca wzgledem pierwszej zmiennej. Rozkład błędu jest dowolny, w szczególnosci nie wymagamy istnienia jego momentów. Proponujemy prostą i obliczeniowo szybką procedurę selekcji cech, która oparta jest na standardowym algorytmie Lasso ze zmiennymi odpowiedzi zastąpionymi przez ich rangi. Przedstawimy teoretyczne i numeryczne wyniki dotyczące zgodności w wyborze modelu naszych metod. Wspólna praca z Małgorzatą Bogdan (Uniwersytet Wrocławski).
22.02.2021 Tomasz Klonecki Cost sensitive feature selection
ABSTRACT: In the first part of the presentation, we will focus on feature selection with forward feature selection and its cost sensitive equivalent. We also learn about submodularity applications in feature selection problems. We will explore experiments completed on the artificially generated dataset, MIMIC-2 dataset and NHANTES dataset. In the second part of the presentation, we will focus on other methods for cost sensitive feature selection such as: - cheap knockoffs - one knockoff - modified lasso model. We will also have a look at various experiments results with these methods.
01.02.2021 Barbara Żogała-Siudem Variable screening for Lasso based on multidimensional indexing
ABSTRACT: In this paper we present a correlation based screening technique for building the complete Lasso path. Unlike many other Lasso screening approaches we do not consider prespecified values of $\lambda$, but, instead, prune variables which cannot be the next best feature to be added to the model. Based on those results we present a modified homotopy algorithm for computing the regularization path. We apply the approach to the important case when multiple models are built against a fixed set of predictors using a multidimensional index to quickly retrieve relevant variables. We assume problems of very high dimensionality, where the variables may not to fit into main memory and are assumed to be stored on disk. We perform experiments using the complete Eurostat database as predictors and demonstrate that our approach allows for practical and efficient construction of Lasso models based on huge statistical databases which remain accurate and interpretable even when millions of highly correlated predictors are present.
18.01.2021 Jan Mielniczuk Testing conditional independence and assessing the strength of conditional dependence
ABSTRACT: We will focus on knockoffs method and its deep variant, contrasted with Conditional Randomisation Test, and model based-methods. The main application to be discussed is variable selection for Generalised Linear Models. In the second part we will briefly cover estimation of conditional mutual information based on Donsker-Varadhan formula.
04.01.2021 Paweł Teisseyre Classifier chains for positive unlabelled multi-label learning
ABSTRACT: In traditional multi-label setting it is assumed that all relevant labels are assigned to the given instance. In positive unlabelled setting, only some of relevant labels are assigned. The appearance of a label means that the instance is really associated with this label, while the absence of the label does not imply that this label is not proper for the instance. For example, when predicting multiple diseases in one patient, some diseases can be undiagnosed however it does not mean that the patient does not have these diseases. Classifier chains are one of the most popular and successful methods used in standard multi-label classification, mainly due to their simplicity and high predictive power. However, it turns out that adaptation of classifier chains to positive unlabelled framework is not straightforward, due to the fact that the true target variables are observed only partially and therefore they cannot be used directly to train the models in the chain. The partial observability concerns not only the current target variable in the chain but also the feature space, which additionally increases the difficulty of the problem. In this paper we investigate the possibility of using classifier chains in positive unlabelled setting. We propose two methods in which we modify classifiers in the chain in order to take into account partial data observability. In the first method (called CCPU) we scale the output probabilities of the consecutive classifiers in the chain. In the second method (called CCPUW) we minimize weighted empirical risk, with weights depending on prior probabilities of the target variables. Moreover, both methods use modified feature spaces. The predictive performance of the proposed methods is studied on real multi-label datasets for different positive unlabelled settings.
7.12.2020 Małgorzata Łazęcka Estymatory ściągające dla dyskretnych prawdopodobieństw i ich zastosowanie w selekcji zmiennych
16.11.2020 Łukasz Dębowski Bounds for Mutual Information and a Unifilar Hidden Markov Order Estimator
ABSTRACT: Inspired by Hilberg’s hypothesis, which states that mutual information between blocks for natural language grows like a power law, we seek for links between power-law growth rate of algorithmic mutual information and of some estimator of the unifilar hidden Markov order, i.e., the mini- mal number of hidden states in the generating stationary ergodic source. We consider an order estimator which returns the smallest order for which the maximum likelihood is larger than a weakly penalized universal proba- bility. This order estimator is intractable and follows the ideas by Merhav, Gutman, and Ziv (1989) and by Ziv and Merhav (1992) but in its exact form seems overlooked despite attractive theoretical properties. In partic- ular, we can prove both strong consistency of this order estimator and an upper bound of algorithmic mutual information in terms of it. Using both results, we show that all (also uncomputable) finite-state hidden Markov sources exhibit sub-power-law growth of algorithmic mutual information and of the unifilar hidden Markov order estimator. In contrast, we also exhibit an example of a unifilar hidden Markov processes with a countably infinite number of hidden states and an algorithmically random oracle, for which the mentioned two quantities grow as a power law with the same exponent. Finally, we relate our results to natural language research.
02.11.2020 Szymon Jaroszewicz Wprowadzenie do pakietów Tensorflow i PyTorch
ABSTRACT: 1. Krótkie wprowadzenie do Pythona + numpy 2. Tensory: podstawowe operacje 3. Automatyczne różniczkowanie 4. Tworzenie sieci neuronowych: podstawowe sposoby i klasy
01.06.2020 Paweł Teisseyre Different strategies of fitting logistic regression for positive and unlabelled data
ABSTRACT: In the paper we revisit the problem of fitting logistic regression to positive and unlabelled data. There are two key contributions. First, a new light is shed on the properties of frequently used naive method (in which unlabelled examples are treated as negative). In particular we show that naive method is related to incorrect specification of the logistic model and consequently the parameters in naive method are shrunk towards zero. An interesting relationship between shrinkage parameter and label frequency is established. Second, we introduce a novel method of fitting logistic model based on simultaneous estimation of vector of coefficients and label frequency. Importantly, the proposed method does not require prior estimation, which is a major obstacle in positive unlabelled learning. The method is superior in predicting posterior probability to both naive method and weighted likelihood method for several benchmark data sets. Moreover, it yields consistently better estimator of label frequency than other two known methods. We also introduce simple but powerful representation of positive and unlabelled data under Selected Completely at Random assumption which yields straightforwardly most properties of such model.
18.05.2020 Jacek Koronacki Some representative models of epidemics
ABSTRACT: It is well-known that all prevalent population level epidemiological models stem from those of Kermack-McKendrick. Such is the case with the SIR model and its various extensions. It is equally well-known that individual level approaches rely, naturally, on our knowledge of stochastic processes. We shall discuss both approaches and show relationships and differences between them. Briefly, we shall discuss also the problem of estimating parameters of those models.
04.05.2020 Marcin Łapiński Generative architectures of neural networks: deep dream, GAN and autoencoders
24.02.2020 Łukasz Dębowski Losowość algorytmiczna: Podstawowe idee i problemy (cz II)
ABSTRACT: W referacie omówię przykłady sekwencji losowych i zastosowania aparatu teorii losowości algorytmicznej. Po pierwsze, ważnym przykładem sekwencji losowej w sensie Martina-Loefa jest stała Omega Chaitina, zwana także prawdopodobieństwem stopu. Omega ma kilka paradoksalnych własności, które wiążą się z podstawami matematyki. Po drugie, z punktu widzenia statystyki matematycznej potrzebnym pojęciem jest losowość względem miary z parametrem rzeczywistym. Aby je zdefiniować wprowadzę funkcje rekurencyjne z wyrocznią. Omówię także twierdzenie van Lambalgena i program efektywizacji twierdzeń probabilistycznych. Po trzecie, losowość w sensie Martina-Loefa skontrastuję z innymi pojęciami stochastyczności słów (skończonych) i sekwencji (nieskończonych).
03.02.2020 Łukasz Dębowski Losowość algorytmiczna: Podstawowe idee i problemy (cz I)
ABSTRACT: Pierwszy referat rozpocznę od nakreślenia nieformalnych motywacji, a następnie przedstawię trzy główne podejścia do definicji losowych nieskończonych sekwencji binarnych przez przeliczalne klasy: kodów, martyngałów i zbiorów miary zero. Ponieważ naturalną przeliczalną klasą funkcji jest klasa funkcji rekurencyjnych, omówię ich formalną definicję przez maszyny z rejestrami. Dzięki temu możliwe będzie zdefiniowanie sekwencji losowych w sensie Martina-Loefa i sformułowanie twierdzenia Schnorra o równoważności czterech definicji tych ciągów.
13.01.2020 Piotr Przybyła Pretrenowane modele językowe od podstaw
ABSTRACT: W przetwarzaniu języka naturalnego (NLP) "modelem językowym" nazywamy rozwiązanie problemu przewidywania prawdopodobieństwa wystąpienia słów na podstawie ich kontekstu. W ostatnim czasie w badaniach NLP modele językowe wykorzystuje się jednak do innego celu, tj. jako sposób na przechowywanie "wiedzy językowej" zgromadzonej na bardzo dużym korpusie tekstów w formie głębokiej sieci neuronowej, w celu ich późniejszego wykorzystania do zadania nadzorowanego (np. klasyfikacji tekstów). Podejście to możliwe jest od stosunkowo niedawna, ale pozwala na osiąganie tak dobrych wyników, że stało się dominujące w literaturze dla wielu zadań. Na seminarium zostanie szczegółowo przedstawiona architektura, sposób działania i wykorzystania najpopularniejszego pretrenowanego modelu: BERT. Będzie to wymagało omówienia także rozwiązań w dziedzinie sieci neuronowych dla NLP, na których on bazuje, takich jak architektura Seq2seq, technika "uwagi" i model Transformer.
09.12.2019 Krzysztof Rudaś Properties of uplift estimators for small samples
ABSTRACT: Uplift modeling is an approach, which allows for predicting effect of an action (e.g. new marketing campaign or medical treatment). To achieve this we divide our population into two subgroups: treatment, which is subjected to the action and control on which no action is taken. Then we estimate difference between effects in treatment and control group. We introduced and analysed two basic methods of estimation: double and uplift regression. We also proposed new method, called corrected uplift regression, joining advantages of two previous approaches. We also calculated asymptotic distributions of these estimators. In my presentation I will show basic properties of these three approaches. They can be used to explain behaviour of estimators for small samples, where difference of mean squared error is most significant.
18.11.2019 Grzegorz Wojdyga Wnioskowanie oraz fact-checking w języku naturalnym przy użyciu deep learningu
04.11.2019 Małgorzata Łazęcka Metody selekcji oparte na informacji wzajemnej
21.10.2019 Mieczysław Kłopotek Losowe rzutowanie a analiza skupień na przykładzie k-means
07.10.2019 Mariusz Kubkowski Wnioskowanie przyczynowe — klasyczne wyniki Fishera i Neymana
24.06.2019
13:30, r. 5
Robert Moskovitch Temporal Data Mining with Temporal Abstraction and Time Intervals Analytics
03.06.2019 Barbara Żogała-Siudem Dobór zmiennych w modelach liniowych z wykorzystaniem indeksów wielowymiarowych
20.05.2019 Konrad Furmańczyk Szacowanie błędu klasyfikacji w źle wyspecyfikowanym modelu regresji binarnej
29.04.2019 Tomasz Steifer Losowość algorytmiczna
08.04.2019 Łukasz Dębowski Przegląd własności ergodycznych dla stacjonarnych procesów dyskretnych
25.03.2019 Krzysztof Gogolewski Odporne PCA, wypełnianie braków w macierzach i zastosowania w bioinformatyce
11.03.2019 Piotr Przybyła Oceny ryzyka śmiertelności na podstawie tekstowej dokumentacji medycznej pacjenta jako problem uczenia wielozadaniowego
25.02.2019 Jan Mielniczuk Reguły stopowania dla metod selekcji bazujących na informacji wzajemnej
04.02.2019 Szymon Jaroszewicz Zachowanie regresji liniowej w sytuacji p>n
21.01.2019 Paweł Teisseyre Multi-label learning with parsimonious classifier chains
10.12.2018 Krzysztof Rudaś Shrinkage Estimators for Uplift Regression
26.11.2018 Małgorzata Łazęcka Compressed sensing
19.11.2018 Mariusz Kubkowski Sekwencyjne procedury selekcji i kontrola FDR
29.10.2018 Paweł Teisseyre Szacowanie błędu generalizacji przy użyciu stabilności oraz złożoności Rademachera
15.10.2018 Szymon Jaroszewicz Wstęp do głębokiego uczenia, cz. II. Sieci rekurencyjne
25.06.2018 Szymon Jaroszewicz Wstęp do głębokiego uczenia, cz. I
11.06.2018 Jan Mielniczuk Błąd predykcji w metodzie lasso
28.05.2018 Mariusz Kubkowski Testing the significance of features based on Interaction Information
07.05.2018
   15:30!
Jacek Koronacki Uwagi o rzekomej korelacji między ciągami zmiennych losowych
16.04.2018 Szymon Jaroszewicz Wybór interesujących reguł asocjacyjnych i metoda maksymalizacji entropii
12.03.2018 Paweł Teisseyre O selekcji zmiennych, informacji wzajemnej i informacji interakcyjnej
26.02.2018 Szymon Jaroszewicz O optymalizacji pola pod krzywą ROC (AUC)
05.02.2018 Jan Mielniczuk O pomiarze siły interakcji. Zastosowania w selekcji PDF
22.01.2018 Mariusz Kubkowski Selekcja zmiennych w przypadku źle wyspecyfikowanego modelu binarnego
08.01.2018 Łukasz Dębowski Uniwersalność kodu PPM i informacja wzajemna PDF
18.12.2017 Paweł Teisseyre Selekcja zmiennych uwzględniająca koszty w klasyfikacji wieloetykietowej
27.11.2017 Krzysztof Rudaś Estymacja współczynnika wpływu w modelowaniu przyczynowości
29.05.2017 Szymon Jaroszewicz Modelowanie różnicowe na danych przeżycia
08.05.2017 Mariusz Kubkowski Metoda SIR i jej własności
10.04.2017 Jan Mielniczuk Metoda selekcji MSS w modelach regresyjnych oparta na wielokrotnym podziale próby
27.03.2017 Łukasz Dębowski O problemie identyfikacji w granicy PDF
13.03.2017 Krzysztof Rudaś Properties of linear regression estimators for uplift modeling
27.02.2017 Paweł Teisseyre An information theory approach to discover hidden associations and interactions in biomedical data