Statistical Analysis and Modeling Group

Welcome to the Statistical Analysis and Modeling Group! The Group is a part of the Institute of Computer Science of the Polish Academy of Sciences. The Group's research activities concern probabilistic and statistical modeling of natural phenomena and statistical inference for constructed models.

The Group maintains strong links with the Faculty of Mathematics and Information Sciences of the Warsaw University of Technology where several of its members teach courses and pursue joint research.

People Research Publications

Group Seminar

The seminar of the Statistical Analysis and Modeling Group usually takes place on Mondays at 15:00 in room 234 on the second floor of the Institute of Computer Science of the Polish Academy of Sciences (IPI PAN). The talks are usually delivered in Polish.

Date	Speaker	Title	Slides
10.05.2021	Jan Mielniczuk	Phase transtion in logistic regression model
		ABSTRACT: W referacie przedstawie wyniki które dotyczą przejścia fazowego w modelu logistycznym w sytuacji, gdy liczba predyktorów zachowuje się jak kappa razy liczność proby. Dla kappa >1/2 estymator ML nie istnieje (co pokazał w swoim doktoracie T. Cover w 1964 roku !), natomiast dla 0< kappa< 1/2 statystyka LRT ma asymptotycznie rozkład będący przeskalowanym rozkładem chi kwadrat, przy czym współczynnik skalowania jest >1. Wynika z tego w szczególności, że stosowanie tw. Wilksa w tej sytuacji prowadzi do braku kontroli nad liczbą fałszywych sygnałów.
19.04.2021	Krzysztof Rudaś	Estymacja przyczynowa pod warunkiem częściowej złej specyfikacji modelu
		ABSTRACT: Tytuł: Modelowanie przyczynowości zajmuje się przewidywaniem efektu podejmowanej przez nas akcji (nowej kampanii marketingowej, metody leczenia pacjentów) dla pojedynczej obserwacji. W tym celu dzielimy populację na grupę eksperymentalną (poddaną działaniu) i kontrolną (nie poddaną działaniu) przy użyciu randomizacji. W naszych badaniach rozważamy dwa typy randomizacji: całkowitą i prostą. Następnie konstruujemy estymator który liczy różnicę efektów między grupami dla pojedynczej obserwacji. Istnieją dwa podstawowe sposoby estymacji: podwójna i różnicowa. Dodatkowo stworzyliśmy trzecie podejście łączące zalety dwóch wcześniejszych. Określiliśmy także asymptotyczne rozkłady estymatorów przy założeniu pełnej liniowości odpowiedzi i zastosowaniu randomizacji całkowitej. W moim referacie przedstawię asymptotyczne wyniki uzyskane dla wyżej wymienionych estymatorów przy założeniu, że odpowiedź w grupie kontrolnej i część odpowiedzi w grupie eksperymentalnej niezwiązana z efektem akcji są nieliniowe, przy założeniu randomizacji całkowitej. Pokażę również wyniki uzyskane przy założeniu pełnej liniowości zmiennej odpowiedzi i przy randomizacji prostej.
22.03.2021	Wojciech Rejchel	Szybka i odporna selekcja cech w modelach regresyjnych
		ABSTRACT: Rozważamy problem selekcji cech w modelu Y = g(beta ' X, epsilon), gdzie nieznana funkcja 'g' jest rosnąca wzgledem pierwszej zmiennej. Rozkład błędu jest dowolny, w szczególnosci nie wymagamy istnienia jego momentów. Proponujemy prostą i obliczeniowo szybką procedurę selekcji cech, która oparta jest na standardowym algorytmie Lasso ze zmiennymi odpowiedzi zastąpionymi przez ich rangi. Przedstawimy teoretyczne i numeryczne wyniki dotyczące zgodności w wyborze modelu naszych metod. Wspólna praca z Małgorzatą Bogdan (Uniwersytet Wrocławski).
22.02.2021	Tomasz Klonecki	Cost sensitive feature selection
		ABSTRACT: In the first part of the presentation, we will focus on feature selection with forward feature selection and its cost sensitive equivalent. We also learn about submodularity applications in feature selection problems. We will explore experiments completed on the artificially generated dataset, MIMIC-2 dataset and NHANTES dataset. In the second part of the presentation, we will focus on other methods for cost sensitive feature selection such as: - cheap knockoffs - one knockoff - modified lasso model. We will also have a look at various experiments results with these methods.
01.02.2021	Barbara Żogała-Siudem	Variable screening for Lasso based on multidimensional indexing
		ABSTRACT: In this paper we present a correlation based screening technique for building the complete Lasso path. Unlike many other Lasso screening approaches we do not consider prespecified values of $\lambda$, but, instead, prune variables which cannot be the next best feature to be added to the model. Based on those results we present a modified homotopy algorithm for computing the regularization path. We apply the approach to the important case when multiple models are built against a fixed set of predictors using a multidimensional index to quickly retrieve relevant variables. We assume problems of very high dimensionality, where the variables may not to fit into main memory and are assumed to be stored on disk. We perform experiments using the complete Eurostat database as predictors and demonstrate that our approach allows for practical and efficient construction of Lasso models based on huge statistical databases which remain accurate and interpretable even when millions of highly correlated predictors are present.
18.01.2021	Jan Mielniczuk	Testing conditional independence and assessing the strength of conditional dependence
		ABSTRACT: We will focus on knockoffs method and its deep variant, contrasted with Conditional Randomisation Test, and model based-methods. The main application to be discussed is variable selection for Generalised Linear Models. In the second part we will briefly cover estimation of conditional mutual information based on Donsker-Varadhan formula.
04.01.2021	Paweł Teisseyre	Classifier chains for positive unlabelled multi-label learning
		ABSTRACT: In traditional multi-label setting it is assumed that all relevant labels are assigned to the given instance. In positive unlabelled setting, only some of relevant labels are assigned. The appearance of a label means that the instance is really associated with this label, while the absence of the label does not imply that this label is not proper for the instance. For example, when predicting multiple diseases in one patient, some diseases can be undiagnosed however it does not mean that the patient does not have these diseases. Classifier chains are one of the most popular and successful methods used in standard multi-label classification, mainly due to their simplicity and high predictive power. However, it turns out that adaptation of classifier chains to positive unlabelled framework is not straightforward, due to the fact that the true target variables are observed only partially and therefore they cannot be used directly to train the models in the chain. The partial observability concerns not only the current target variable in the chain but also the feature space, which additionally increases the difficulty of the problem. In this paper we investigate the possibility of using classifier chains in positive unlabelled setting. We propose two methods in which we modify classifiers in the chain in order to take into account partial data observability. In the first method (called CCPU) we scale the output probabilities of the consecutive classifiers in the chain. In the second method (called CCPUW) we minimize weighted empirical risk, with weights depending on prior probabilities of the target variables. Moreover, both methods use modified feature spaces. The predictive performance of the proposed methods is studied on real multi-label datasets for different positive unlabelled settings.
7.12.2020	Małgorzata Łazęcka	Estymatory ściągające dla dyskretnych prawdopodobieństw i ich zastosowanie w selekcji zmiennych
16.11.2020	Łukasz Dębowski	Bounds for Mutual Information and a Unifilar Hidden Markov Order Estimator
		ABSTRACT: Inspired by Hilberg’s hypothesis, which states that mutual information between blocks for natural language grows like a power law, we seek for links between power-law growth rate of algorithmic mutual information and of some estimator of the unifilar hidden Markov order, i.e., the mini- mal number of hidden states in the generating stationary ergodic source. We consider an order estimator which returns the smallest order for which the maximum likelihood is larger than a weakly penalized universal proba- bility. This order estimator is intractable and follows the ideas by Merhav, Gutman, and Ziv (1989) and by Ziv and Merhav (1992) but in its exact form seems overlooked despite attractive theoretical properties. In partic- ular, we can prove both strong consistency of this order estimator and an upper bound of algorithmic mutual information in terms of it. Using both results, we show that all (also uncomputable) finite-state hidden Markov sources exhibit sub-power-law growth of algorithmic mutual information and of the unifilar hidden Markov order estimator. In contrast, we also exhibit an example of a unifilar hidden Markov processes with a countably infinite number of hidden states and an algorithmically random oracle, for which the mentioned two quantities grow as a power law with the same exponent. Finally, we relate our results to natural language research.
02.11.2020	Szymon Jaroszewicz	Wprowadzenie do pakietów Tensorflow i PyTorch
		ABSTRACT: 1. Krótkie wprowadzenie do Pythona + numpy 2. Tensory: podstawowe operacje 3. Automatyczne różniczkowanie 4. Tworzenie sieci neuronowych: podstawowe sposoby i klasy
01.06.2020	Paweł Teisseyre	Different strategies of fitting logistic regression for positive and unlabelled data
		ABSTRACT: In the paper we revisit the problem of fitting logistic regression to positive and unlabelled data. There are two key contributions. First, a new light is shed on the properties of frequently used naive method (in which unlabelled examples are treated as negative). In particular we show that naive method is related to incorrect specification of the logistic model and consequently the parameters in naive method are shrunk towards zero. An interesting relationship between shrinkage parameter and label frequency is established. Second, we introduce a novel method of fitting logistic model based on simultaneous estimation of vector of coefficients and label frequency. Importantly, the proposed method does not require prior estimation, which is a major obstacle in positive unlabelled learning. The method is superior in predicting posterior probability to both naive method and weighted likelihood method for several benchmark data sets. Moreover, it yields consistently better estimator of label frequency than other two known methods. We also introduce simple but powerful representation of positive and unlabelled data under Selected Completely at Random assumption which yields straightforwardly most properties of such model.
18.05.2020	Jacek Koronacki	Some representative models of epidemics
		ABSTRACT: It is well-known that all prevalent population level epidemiological models stem from those of Kermack-McKendrick. Such is the case with the SIR model and its various extensions. It is equally well-known that individual level approaches rely, naturally, on our knowledge of stochastic processes. We shall discuss both approaches and show relationships and differences between them. Briefly, we shall discuss also the problem of estimating parameters of those models.
04.05.2020	Marcin Łapiński	Generative architectures of neural networks: deep dream, GAN and autoencoders

24.02.2020	Łukasz Dębowski	Losowość algorytmiczna: Podstawowe idee i problemy (cz II)
		ABSTRACT: W referacie omówię przykłady sekwencji losowych i zastosowania aparatu teorii losowości algorytmicznej. Po pierwsze, ważnym przykładem sekwencji losowej w sensie Martina-Loefa jest stała Omega Chaitina, zwana także prawdopodobieństwem stopu. Omega ma kilka paradoksalnych własności, które wiążą się z podstawami matematyki. Po drugie, z punktu widzenia statystyki matematycznej potrzebnym pojęciem jest losowość względem miary z parametrem rzeczywistym. Aby je zdefiniować wprowadzę funkcje rekurencyjne z wyrocznią. Omówię także twierdzenie van Lambalgena i program efektywizacji twierdzeń probabilistycznych. Po trzecie, losowość w sensie Martina-Loefa skontrastuję z innymi pojęciami stochastyczności słów (skończonych) i sekwencji (nieskończonych).
03.02.2020	Łukasz Dębowski	Losowość algorytmiczna: Podstawowe idee i problemy (cz I)
		ABSTRACT: Pierwszy referat rozpocznę od nakreślenia nieformalnych motywacji, a następnie przedstawię trzy główne podejścia do definicji losowych nieskończonych sekwencji binarnych przez przeliczalne klasy: kodów, martyngałów i zbiorów miary zero. Ponieważ naturalną przeliczalną klasą funkcji jest klasa funkcji rekurencyjnych, omówię ich formalną definicję przez maszyny z rejestrami. Dzięki temu możliwe będzie zdefiniowanie sekwencji losowych w sensie Martina-Loefa i sformułowanie twierdzenia Schnorra o równoważności czterech definicji tych ciągów.
13.01.2020	Piotr Przybyła	Pretrenowane modele językowe od podstaw
		ABSTRACT: W przetwarzaniu języka naturalnego (NLP) "modelem językowym" nazywamy rozwiązanie problemu przewidywania prawdopodobieństwa wystąpienia słów na podstawie ich kontekstu. W ostatnim czasie w badaniach NLP modele językowe wykorzystuje się jednak do innego celu, tj. jako sposób na przechowywanie "wiedzy językowej" zgromadzonej na bardzo dużym korpusie tekstów w formie głębokiej sieci neuronowej, w celu ich późniejszego wykorzystania do zadania nadzorowanego (np. klasyfikacji tekstów). Podejście to możliwe jest od stosunkowo niedawna, ale pozwala na osiąganie tak dobrych wyników, że stało się dominujące w literaturze dla wielu zadań. Na seminarium zostanie szczegółowo przedstawiona architektura, sposób działania i wykorzystania najpopularniejszego pretrenowanego modelu: BERT. Będzie to wymagało omówienia także rozwiązań w dziedzinie sieci neuronowych dla NLP, na których on bazuje, takich jak architektura Seq2seq, technika "uwagi" i model Transformer.
09.12.2019	Krzysztof Rudaś	Properties of uplift estimators for small samples
		ABSTRACT: Uplift modeling is an approach, which allows for predicting effect of an action (e.g. new marketing campaign or medical treatment). To achieve this we divide our population into two subgroups: treatment, which is subjected to the action and control on which no action is taken. Then we estimate difference between effects in treatment and control group. We introduced and analysed two basic methods of estimation: double and uplift regression. We also proposed new method, called corrected uplift regression, joining advantages of two previous approaches. We also calculated asymptotic distributions of these estimators. In my presentation I will show basic properties of these three approaches. They can be used to explain behaviour of estimators for small samples, where difference of mean squared error is most significant.
18.11.2019	Grzegorz Wojdyga	Wnioskowanie oraz fact-checking w języku naturalnym przy użyciu deep learningu
04.11.2019	Małgorzata Łazęcka	Metody selekcji oparte na informacji wzajemnej
21.10.2019	Mieczysław Kłopotek	Losowe rzutowanie a analiza skupień na przykładzie k-means
07.10.2019	Mariusz Kubkowski	Wnioskowanie przyczynowe — klasyczne wyniki Fishera i Neymana
24.06.2019 13:30, r. 5	Robert Moskovitch	Temporal Data Mining with Temporal Abstraction and Time Intervals Analytics
03.06.2019	Barbara Żogała-Siudem	Dobór zmiennych w modelach liniowych z wykorzystaniem indeksów wielowymiarowych
20.05.2019	Konrad Furmańczyk	Szacowanie błędu klasyfikacji w źle wyspecyfikowanym modelu regresji binarnej
29.04.2019	Tomasz Steifer	Losowość algorytmiczna
08.04.2019	Łukasz Dębowski	Przegląd własności ergodycznych dla stacjonarnych procesów dyskretnych
25.03.2019	Krzysztof Gogolewski	Odporne PCA, wypełnianie braków w macierzach i zastosowania w bioinformatyce
11.03.2019	Piotr Przybyła	Oceny ryzyka śmiertelności na podstawie tekstowej dokumentacji medycznej pacjenta jako problem uczenia wielozadaniowego
25.02.2019	Jan Mielniczuk	Reguły stopowania dla metod selekcji bazujących na informacji wzajemnej
04.02.2019	Szymon Jaroszewicz	Zachowanie regresji liniowej w sytuacji p>n
21.01.2019	Paweł Teisseyre	Multi-label learning with parsimonious classifier chains
10.12.2018	Krzysztof Rudaś	Shrinkage Estimators for Uplift Regression
26.11.2018	Małgorzata Łazęcka	Compressed sensing
19.11.2018	Mariusz Kubkowski	Sekwencyjne procedury selekcji i kontrola FDR
29.10.2018	Paweł Teisseyre	Szacowanie błędu generalizacji przy użyciu stabilności oraz złożoności Rademachera
15.10.2018	Szymon Jaroszewicz	Wstęp do głębokiego uczenia, cz. II. Sieci rekurencyjne
25.06.2018	Szymon Jaroszewicz	Wstęp do głębokiego uczenia, cz. I
11.06.2018	Jan Mielniczuk	Błąd predykcji w metodzie lasso
28.05.2018	Mariusz Kubkowski	Testing the significance of features based on Interaction Information
07.05.2018 15:30!	Jacek Koronacki	Uwagi o rzekomej korelacji między ciągami zmiennych losowych
16.04.2018	Szymon Jaroszewicz	Wybór interesujących reguł asocjacyjnych i metoda maksymalizacji entropii
12.03.2018	Paweł Teisseyre	O selekcji zmiennych, informacji wzajemnej i informacji interakcyjnej
26.02.2018	Szymon Jaroszewicz	O optymalizacji pola pod krzywą ROC (AUC)
05.02.2018	Jan Mielniczuk	O pomiarze siły interakcji. Zastosowania w selekcji	PDF
22.01.2018	Mariusz Kubkowski	Selekcja zmiennych w przypadku źle wyspecyfikowanego modelu binarnego
08.01.2018	Łukasz Dębowski	Uniwersalność kodu PPM i informacja wzajemna	PDF
18.12.2017	Paweł Teisseyre	Selekcja zmiennych uwzględniająca koszty w klasyfikacji wieloetykietowej
27.11.2017	Krzysztof Rudaś	Estymacja współczynnika wpływu w modelowaniu przyczynowości
29.05.2017	Szymon Jaroszewicz	Modelowanie różnicowe na danych przeżycia
08.05.2017	Mariusz Kubkowski	Metoda SIR i jej własności
10.04.2017	Jan Mielniczuk	Metoda selekcji MSS w modelach regresyjnych oparta na wielokrotnym podziale próby
27.03.2017	Łukasz Dębowski	O problemie identyfikacji w granicy	PDF
13.03.2017	Krzysztof Rudaś	Properties of linear regression estimators for uplift modeling
27.02.2017	Paweł Teisseyre	An information theory approach to discover hidden associations and interactions in biomedical data