Maskeringstechnieken kunnen nuttig zijn bij auteurherkenning om auteurherkenningsmethoden minder onderwerpafhankelijk te maken. Echter, als er teveel gemaskeerd wordt gaat er relevante informatie verloren waardoor deauteurherkenningsmethodejuist minder goed werkt. Hierin moetee
...
Maskeringstechnieken kunnen nuttig zijn bij auteurherkenning om auteurherkenningsmethoden minder onderwerpafhankelijk te maken. Echter, als er teveel gemaskeerd wordt gaat er relevante informatie verloren waardoor deauteurherkenningsmethodejuist minder goed werkt. Hierin moeteenzorgvuldige afweging gemaakt worden. Het doel van dit onderzoek is om een aanbeveling te doen wat betreft het optimale aantal te maskeren woorden voor verschillende datasets. Ook worden er verschillende maskeringstechnieken bij verschil lende classificatiemethoden vergeleken. Er wordt gekeken naar maskering met behulp van een al gemene woordenlijst (COCA-woordenlijst) en maskering met behulp van een eigen frequentielijst per dataset. Hierbij worden twee classificatiemethoden gebruikt: support vector machines en logistis che regressie. Voor drie verschillende datasets: tweets, literaire teksten en brieven wordt gekeken welke manier van maskeren en welke classificatiemethode het beste werkt. Dit wordt gedaan door de prestaties te vergelijken. Ook wordt er daarnaast, vanuit de literatuur, gekeken naar de verschillen in onderwerprobuustheid en op basis daarvan wordt, gecombineerd met de informatie wat betreft de prestaties, een aanbeveling gedaan wat betreft het optimale aantal te maskeren woorden.