FL

F.I.M. Lückerath

info

Please Note

2 records found

Using a Random Forest Classifier on EEG Data

Master thesis (2023) - F.I.M. Lückerath, G. Jongbloed, Robert van den Berg, M.B. van Gijzen
During the initial phase of diagnosis, patients with anti-NDMA-receptor encephalitis (anti-NMDARE) often experience severe symptoms that significantly impact their quality of life. Anti-NDMARE is an autoimmune disorder affecting the brain, with electroencephalography (EEG) playing a vital role in diagnosis and treatment. Identifying EEG patterns associated with positive or negative prognosis is crucial for adjusting treatment intensity. Improved understanding of diagnosis, prognosis and treatment could enhance the quality of life for anti-NDMARE patients. This thesis aimed to analyse the EEG data with Machine Learning (ML) to predict which patients exhibit positive recovery after 12 months of standard treatment.

To predict the outcome after 12 months, a Random Forest (RF) classifier was constructed using available EEG features. The EEG dataset exhibited a clustered structure due to multiple values for each patient’s EEG features. Three approaches were considered to handle this clustering: ignoring clustering, reducing clustering to independent observations, and explicitly accounting for clustering. The first two options were explored in this research. Another prominent challenge encountered early in the research was the class imbalance, which was addressed by under- and oversampling the dataset.

For the simulation sets, under- or oversampling did not yield the desired effect, as the normal sets demonstrated comparable or even superior performance compared to the the under- and oversampled sets. However, under- and oversampling improved the performance scores for the real dataset. Reducing the clusters to independent observations did not achieve high performance scores compared to ignoring clustering, both in the simulation and real data cases. Furthermore, in both cases, RF models using the EEG sets outperformed those using principal component analysis (PCA) on the clustered EEG set.

Although the performance metrics scores were not yet optimal, important features for determining class labels were identified, providing a good understanding of the dataset. Mean Decrease in Impurity (MDI) and SHAP algorithm highlighted the significance of connectivity-related features in the reduced clustering to independent observation setting. The relevance of these features became evident upon calculating the mean, minimum, or maximum. In the EEG setting, MDI emphasized the importance of the features deltapower, sampleentropy and occipital-related features. These features remain important in the reduced set. SHAP, in addition to prioritizing the same features, offered insights into how specific features contribute to the prediction of a specific observation, enhancing interpretability.

The challenges for the RF classifier in the case of anti-NDMARE are class imbalance and accurate classification of the minority class. Under- and oversampling techniques successfully improved classification of minority class observations for the original EEG set. Concluding, this set is strongly encouraged to be utilized over all sets when aiming to classify EEG features. However, this set overlooks the clustering aspect, leaving room for optimization in future research to address this limitation. Additionally, it is recommended to explore the potential of a Convolutional Neural Network (CNN) for accurate classification of raw EEG signals. Its exploration was beyond the scope of this research. ...
In dit onderzoek zijn twee manieren van A/B-testen met elkaar vergeleken. A/B-testen is het vergelijken van verschillende website versies om te achterhalen welke versie voor een hogere opbrengt zorgt. Consumenten krijgen afzonderlijk meerdere versies van een website te zien: versie A, versie B, versie C, et cetera. De websites verschillen op basis van één onderscheidend kenmerk van elkaar.
De twee manieren van A/B-testen zijn de klassieke methode en de meer recent ontwikkelde bandit-methode. In de klassieke methode van A/B-testen krijgen meerdere groepen van consumenten de verschillende versies van de website te zien en wordt achteraf bepaald welke website versie de betere versie is op basis van het aantal conversies (conversies zijn bijvoorbeeld aankopen, clicks, et cetera). Het nadeel van deze test is dat je pas achteraf weet welke website de hoogste opbrengst oplevert, terwijl deze uitkomst misschien al tijdens de steekproef duidelijk wordt. De bandit-methode heeft meerdere varianten, waarvan vijf varianten in dit onderzoek zijn onderzocht en vergeleken. De bandit-methode van A/B-testen blijft gedurende de steekproef de groep consumenten die naar de verschillende versies van de website gestuurd worden aanpassen zodat al tijdens het testen zo min mogelijk consumenten naar de slechter presterende website gestuurd worden. Dit betekent namelijk misgelopen opbrengsten, ook wel spijt in A/B-testen. In dit onderzoek wordt daarom de klassieke methode vergeleken met een vijftal bandit-methoden.
Aan de hand van een gesimuleerde steekproef en drie fictieve versies van een website (A,B en C) worden de uitkomsten van de zes methoden op basis van statistische analyses vergeleken. De analyses zijn in RStudio geprogrammeerd en uitgevoerd. Hieruit blijkt dat, alhoewel alle zes de methoden uiteindelijk de best presterende versie kunnen aanwijzen, er duidelijke verschillen zichtbaar zijn in de totale conversies en de spijt. De bandit-methode verbetert op die onderdelen de klassieke methode. Daarnaast zijn er aanwijzingen dat de bandit-methoden de verschillende conversieratio’s van de website versies eerder statistisch significant kunnen aantonen. ...