Welcome to the Statistical Analysis and Modeling Group! The Group is a part of the Institute of Computer Science of the Polish Academy of Sciences. The Group's research activities concern probabilistic and statistical modeling of natural phenomena and statistical inference for constructed models.
The Group maintains strong links with the Faculty of Mathematics and Information Sciences of the Warsaw University of Technology where several of its members teach courses and pursue joint research.
People Research PublicationsThe seminar of the Statistical Analysis and Modeling Group usually takes place on Mondays at 15:00 in room 234 on the second floor of the Institute of Computer Science of the Polish Academy of Sciences (IPI PAN). The talks are usually delivered in Polish.
Date | Speaker | Title | Slides |
---|---|---|---|
10.05.2021 | Jan Mielniczuk | Phase transtion in logistic regression model | |
ABSTRACT: W referacie przedstawie wyniki które dotyczą przejścia fazowego w modelu logistycznym w sytuacji, gdy liczba predyktorów zachowuje się jak kappa razy liczność proby. Dla kappa >1/2 estymator ML nie istnieje (co pokazał w swoim doktoracie T. Cover w 1964 roku !), natomiast dla 0< kappa< 1/2 statystyka LRT ma asymptotycznie rozkład będący przeskalowanym rozkładem chi kwadrat, przy czym współczynnik skalowania jest >1. Wynika z tego w szczególności, że stosowanie tw. Wilksa w tej sytuacji prowadzi do braku kontroli nad liczbą fałszywych sygnałów. | |||
19.04.2021 | Krzysztof Rudaś | Estymacja przyczynowa pod warunkiem częściowej złej specyfikacji modelu | |
ABSTRACT: Tytuł: Modelowanie przyczynowości zajmuje się przewidywaniem efektu podejmowanej przez nas akcji (nowej kampanii marketingowej, metody leczenia pacjentów) dla pojedynczej obserwacji. W tym celu dzielimy populację na grupę eksperymentalną (poddaną działaniu) i kontrolną (nie poddaną działaniu) przy użyciu randomizacji. W naszych badaniach rozważamy dwa typy randomizacji: całkowitą i prostą. Następnie konstruujemy estymator który liczy różnicę efektów między grupami dla pojedynczej obserwacji. Istnieją dwa podstawowe sposoby estymacji: podwójna i różnicowa. Dodatkowo stworzyliśmy trzecie podejście łączące zalety dwóch wcześniejszych. Określiliśmy także asymptotyczne rozkłady estymatorów przy założeniu pełnej liniowości odpowiedzi i zastosowaniu randomizacji całkowitej. W moim referacie przedstawię asymptotyczne wyniki uzyskane dla wyżej wymienionych estymatorów przy założeniu, że odpowiedź w grupie kontrolnej i część odpowiedzi w grupie eksperymentalnej niezwiązana z efektem akcji są nieliniowe, przy założeniu randomizacji całkowitej. Pokażę również wyniki uzyskane przy założeniu pełnej liniowości zmiennej odpowiedzi i przy randomizacji prostej. | |||
22.03.2021 | Wojciech Rejchel | Szybka i odporna selekcja cech w modelach regresyjnych | |
ABSTRACT: Rozważamy problem selekcji cech w modelu Y = g(beta ' X, epsilon), gdzie nieznana funkcja 'g' jest rosnąca wzgledem pierwszej zmiennej. Rozkład błędu jest dowolny, w szczególnosci nie wymagamy istnienia jego momentów. Proponujemy prostą i obliczeniowo szybką procedurę selekcji cech, która oparta jest na standardowym algorytmie Lasso ze zmiennymi odpowiedzi zastąpionymi przez ich rangi. Przedstawimy teoretyczne i numeryczne wyniki dotyczące zgodności w wyborze modelu naszych metod. Wspólna praca z Małgorzatą Bogdan (Uniwersytet Wrocławski). | |||
22.02.2021 | Tomasz Klonecki | Cost sensitive feature selection | |
ABSTRACT: In the first part of the presentation, we will focus on feature selection with forward feature selection and its cost sensitive equivalent. We also learn about submodularity applications in feature selection problems. We will explore experiments completed on the artificially generated dataset, MIMIC-2 dataset and NHANTES dataset. In the second part of the presentation, we will focus on other methods for cost sensitive feature selection such as: - cheap knockoffs - one knockoff - modified lasso model. We will also have a look at various experiments results with these methods. | |||
01.02.2021 | Barbara Żogała-Siudem | Variable screening for Lasso based on multidimensional indexing | |
ABSTRACT: In this paper we present a correlation based screening technique for building the complete Lasso path. Unlike many other Lasso screening approaches we do not consider prespecified values of $\lambda$, but, instead, prune variables which cannot be the next best feature to be added to the model. Based on those results we present a modified homotopy algorithm for computing the regularization path. We apply the approach to the important case when multiple models are built against a fixed set of predictors using a multidimensional index to quickly retrieve relevant variables. We assume problems of very high dimensionality, where the variables may not to fit into main memory and are assumed to be stored on disk. We perform experiments using the complete Eurostat database as predictors and demonstrate that our approach allows for practical and efficient construction of Lasso models based on huge statistical databases which remain accurate and interpretable even when millions of highly correlated predictors are present. | |||
18.01.2021 | Jan Mielniczuk | Testing conditional independence and assessing the strength of conditional dependence | |
ABSTRACT: We will focus on knockoffs method and its deep variant, contrasted with Conditional Randomisation Test, and model based-methods. The main application to be discussed is variable selection for Generalised Linear Models. In the second part we will briefly cover estimation of conditional mutual information based on Donsker-Varadhan formula. | |||
04.01.2021 | Paweł Teisseyre | Classifier chains for positive unlabelled multi-label learning | |
ABSTRACT: In traditional multi-label setting it is assumed that all relevant labels are assigned to the given instance. In positive unlabelled setting, only some of relevant labels are assigned. The appearance of a label means that the instance is really associated with this label, while the absence of the label does not imply that this label is not proper for the instance. For example, when predicting multiple diseases in one patient, some diseases can be undiagnosed however it does not mean that the patient does not have these diseases. Classifier chains are one of the most popular and successful methods used in standard multi-label classification, mainly due to their simplicity and high predictive power. However, it turns out that adaptation of classifier chains to positive unlabelled framework is not straightforward, due to the fact that the true target variables are observed only partially and therefore they cannot be used directly to train the models in the chain. The partial observability concerns not only the current target variable in the chain but also the feature space, which additionally increases the difficulty of the problem. In this paper we investigate the possibility of using classifier chains in positive unlabelled setting. We propose two methods in which we modify classifiers in the chain in order to take into account partial data observability. In the first method (called CCPU) we scale the output probabilities of the consecutive classifiers in the chain. In the second method (called CCPUW) we minimize weighted empirical risk, with weights depending on prior probabilities of the target variables. Moreover, both methods use modified feature spaces. The predictive performance of the proposed methods is studied on real multi-label datasets for different positive unlabelled settings. | |||
7.12.2020 | Małgorzata Łazęcka | Estymatory ściągające dla dyskretnych prawdopodobieństw i ich zastosowanie w selekcji zmiennych | |
16.11.2020 | Łukasz Dębowski | Bounds for Mutual Information and a Unifilar Hidden Markov Order Estimator | |
ABSTRACT: Inspired by Hilberg’s hypothesis, which states that mutual information between blocks for natural language grows like a power law, we seek for links between power-law growth rate of algorithmic mutual information and of some estimator of the unifilar hidden Markov order, i.e., the mini- mal number of hidden states in the generating stationary ergodic source. We consider an order estimator which returns the smallest order for which the maximum likelihood is larger than a weakly penalized universal proba- bility. This order estimator is intractable and follows the ideas by Merhav, Gutman, and Ziv (1989) and by Ziv and Merhav (1992) but in its exact form seems overlooked despite attractive theoretical properties. In partic- ular, we can prove both strong consistency of this order estimator and an upper bound of algorithmic mutual information in terms of it. Using both results, we show that all (also uncomputable) finite-state hidden Markov sources exhibit sub-power-law growth of algorithmic mutual information and of the unifilar hidden Markov order estimator. In contrast, we also exhibit an example of a unifilar hidden Markov processes with a countably infinite number of hidden states and an algorithmically random oracle, for which the mentioned two quantities grow as a power law with the same exponent. Finally, we relate our results to natural language research. | |||
02.11.2020 | Szymon Jaroszewicz | Wprowadzenie do pakietów Tensorflow i PyTorch | |
ABSTRACT: 1. Krótkie wprowadzenie do Pythona + numpy 2. Tensory: podstawowe operacje 3. Automatyczne różniczkowanie 4. Tworzenie sieci neuronowych: podstawowe sposoby i klasy | |||
01.06.2020 | Paweł Teisseyre | Different strategies of fitting logistic regression for positive and unlabelled data | |
ABSTRACT: In the paper we revisit the problem of fitting logistic regression to positive and unlabelled data. There are two key contributions. First, a new light is shed on the properties of frequently used naive method (in which unlabelled examples are treated as negative). In particular we show that naive method is related to incorrect specification of the logistic model and consequently the parameters in naive method are shrunk towards zero. An interesting relationship between shrinkage parameter and label frequency is established. Second, we introduce a novel method of fitting logistic model based on simultaneous estimation of vector of coefficients and label frequency. Importantly, the proposed method does not require prior estimation, which is a major obstacle in positive unlabelled learning. The method is superior in predicting posterior probability to both naive method and weighted likelihood method for several benchmark data sets. Moreover, it yields consistently better estimator of label frequency than other two known methods. We also introduce simple but powerful representation of positive and unlabelled data under Selected Completely at Random assumption which yields straightforwardly most properties of such model. | |||
18.05.2020 | Jacek Koronacki | Some representative models of epidemics | |
ABSTRACT: It is well-known that all prevalent population level epidemiological models stem from those of Kermack-McKendrick. Such is the case with the SIR model and its various extensions. It is equally well-known that individual level approaches rely, naturally, on our knowledge of stochastic processes. We shall discuss both approaches and show relationships and differences between them. Briefly, we shall discuss also the problem of estimating parameters of those models. | |||
04.05.2020 | Marcin Łapiński | Generative architectures of neural networks: deep dream, GAN and autoencoders | |
24.02.2020 | Łukasz Dębowski | Losowość algorytmiczna: Podstawowe idee i problemy (cz II) | |
ABSTRACT: W referacie omówię przykłady sekwencji losowych i zastosowania aparatu teorii losowości algorytmicznej. Po pierwsze, ważnym przykładem sekwencji losowej w sensie Martina-Loefa jest stała Omega Chaitina, zwana także prawdopodobieństwem stopu. Omega ma kilka paradoksalnych własności, które wiążą się z podstawami matematyki. Po drugie, z punktu widzenia statystyki matematycznej potrzebnym pojęciem jest losowość względem miary z parametrem rzeczywistym. Aby je zdefiniować wprowadzę funkcje rekurencyjne z wyrocznią. Omówię także twierdzenie van Lambalgena i program efektywizacji twierdzeń probabilistycznych. Po trzecie, losowość w sensie Martina-Loefa skontrastuję z innymi pojęciami stochastyczności słów (skończonych) i sekwencji (nieskończonych). | |||
03.02.2020 | Łukasz Dębowski | Losowość algorytmiczna: Podstawowe idee i problemy (cz I) | |
ABSTRACT: Pierwszy referat rozpocznę od nakreślenia nieformalnych motywacji, a następnie przedstawię trzy główne podejścia do definicji losowych nieskończonych sekwencji binarnych przez przeliczalne klasy: kodów, martyngałów i zbiorów miary zero. Ponieważ naturalną przeliczalną klasą funkcji jest klasa funkcji rekurencyjnych, omówię ich formalną definicję przez maszyny z rejestrami. Dzięki temu możliwe będzie zdefiniowanie sekwencji losowych w sensie Martina-Loefa i sformułowanie twierdzenia Schnorra o równoważności czterech definicji tych ciągów. | |||
13.01.2020 | Piotr Przybyła | Pretrenowane modele językowe od podstaw | |
ABSTRACT: W przetwarzaniu języka naturalnego (NLP) "modelem językowym" nazywamy rozwiązanie problemu przewidywania prawdopodobieństwa wystąpienia słów na podstawie ich kontekstu. W ostatnim czasie w badaniach NLP modele językowe wykorzystuje się jednak do innego celu, tj. jako sposób na przechowywanie "wiedzy językowej" zgromadzonej na bardzo dużym korpusie tekstów w formie głębokiej sieci neuronowej, w celu ich późniejszego wykorzystania do zadania nadzorowanego (np. klasyfikacji tekstów). Podejście to możliwe jest od stosunkowo niedawna, ale pozwala na osiąganie tak dobrych wyników, że stało się dominujące w literaturze dla wielu zadań. Na seminarium zostanie szczegółowo przedstawiona architektura, sposób działania i wykorzystania najpopularniejszego pretrenowanego modelu: BERT. Będzie to wymagało omówienia także rozwiązań w dziedzinie sieci neuronowych dla NLP, na których on bazuje, takich jak architektura Seq2seq, technika "uwagi" i model Transformer. | |||
09.12.2019 | Krzysztof Rudaś | Properties of uplift estimators for small samples | |
ABSTRACT: Uplift modeling is an approach, which allows for predicting effect of an action (e.g. new marketing campaign or medical treatment). To achieve this we divide our population into two subgroups: treatment, which is subjected to the action and control on which no action is taken. Then we estimate difference between effects in treatment and control group. We introduced and analysed two basic methods of estimation: double and uplift regression. We also proposed new method, called corrected uplift regression, joining advantages of two previous approaches. We also calculated asymptotic distributions of these estimators. In my presentation I will show basic properties of these three approaches. They can be used to explain behaviour of estimators for small samples, where difference of mean squared error is most significant. | |||
18.11.2019 | Grzegorz Wojdyga | Wnioskowanie oraz fact-checking w języku naturalnym przy użyciu deep learningu | |
04.11.2019 | Małgorzata Łazęcka | Metody selekcji oparte na informacji wzajemnej | |
21.10.2019 | Mieczysław Kłopotek | Losowe rzutowanie a analiza skupień na przykładzie k-means | |
07.10.2019 | Mariusz Kubkowski | Wnioskowanie przyczynowe — klasyczne wyniki Fishera i Neymana | |
24.06.2019 13:30, r. 5 |
Robert Moskovitch | Temporal Data Mining with Temporal Abstraction and Time Intervals Analytics | |
03.06.2019 | Barbara Żogała-Siudem | Dobór zmiennych w modelach liniowych z wykorzystaniem indeksów wielowymiarowych | |
20.05.2019 | Konrad Furmańczyk | Szacowanie błędu klasyfikacji w źle wyspecyfikowanym modelu regresji binarnej | |
29.04.2019 | Tomasz Steifer | Losowość algorytmiczna | |
08.04.2019 | Łukasz Dębowski | Przegląd własności ergodycznych dla stacjonarnych procesów dyskretnych | |
25.03.2019 | Krzysztof Gogolewski | Odporne PCA, wypełnianie braków w macierzach i zastosowania w bioinformatyce | |
11.03.2019 | Piotr Przybyła | Oceny ryzyka śmiertelności na podstawie tekstowej dokumentacji medycznej pacjenta jako problem uczenia wielozadaniowego | |
25.02.2019 | Jan Mielniczuk | Reguły stopowania dla metod selekcji bazujących na informacji wzajemnej | |
04.02.2019 | Szymon Jaroszewicz | Zachowanie regresji liniowej w sytuacji p>n | |
21.01.2019 | Paweł Teisseyre | Multi-label learning with parsimonious classifier chains | |
10.12.2018 | Krzysztof Rudaś | Shrinkage Estimators for Uplift Regression | |
26.11.2018 | Małgorzata Łazęcka | Compressed sensing | |
19.11.2018 | Mariusz Kubkowski | Sekwencyjne procedury selekcji i kontrola FDR | |
29.10.2018 | Paweł Teisseyre | Szacowanie błędu generalizacji przy użyciu stabilności oraz złożoności Rademachera | |
15.10.2018 | Szymon Jaroszewicz | Wstęp do głębokiego uczenia, cz. II. Sieci rekurencyjne | |
25.06.2018 | Szymon Jaroszewicz | Wstęp do głębokiego uczenia, cz. I | |
11.06.2018 | Jan Mielniczuk | Błąd predykcji w metodzie lasso | |
28.05.2018 | Mariusz Kubkowski | Testing the significance of features based on Interaction Information | |
07.05.2018 15:30! |
Jacek Koronacki | Uwagi o rzekomej korelacji między ciągami zmiennych losowych | |
16.04.2018 | Szymon Jaroszewicz | Wybór interesujących reguł asocjacyjnych i metoda maksymalizacji entropii | |
12.03.2018 | Paweł Teisseyre | O selekcji zmiennych, informacji wzajemnej i informacji interakcyjnej | |
26.02.2018 | Szymon Jaroszewicz | O optymalizacji pola pod krzywą ROC (AUC) | |
05.02.2018 | Jan Mielniczuk | O pomiarze siły interakcji. Zastosowania w selekcji | |
22.01.2018 | Mariusz Kubkowski | Selekcja zmiennych w przypadku źle wyspecyfikowanego modelu binarnego | |
08.01.2018 | Łukasz Dębowski | Uniwersalność kodu PPM i informacja wzajemna | |
18.12.2017 | Paweł Teisseyre | Selekcja zmiennych uwzględniająca koszty w klasyfikacji wieloetykietowej | |
27.11.2017 | Krzysztof Rudaś | Estymacja współczynnika wpływu w modelowaniu przyczynowości | |
29.05.2017 | Szymon Jaroszewicz | Modelowanie różnicowe na danych przeżycia | |
08.05.2017 | Mariusz Kubkowski | Metoda SIR i jej własności | |
10.04.2017 | Jan Mielniczuk | Metoda selekcji MSS w modelach regresyjnych oparta na wielokrotnym podziale próby | |
27.03.2017 | Łukasz Dębowski | O problemie identyfikacji w granicy | |
13.03.2017 | Krzysztof Rudaś | Properties of linear regression estimators for uplift modeling | |
27.02.2017 | Paweł Teisseyre | An information theory approach to discover hidden associations and interactions in biomedical data |