Repository hosted by TU Delft Library

Home · Contact · About · Disclaimer ·
 

The importance of prior probabilities for entry page search

Author: Kraaij, W. · Westerveld, T. · Hiemstra, D.
Type:article
Date:2002
Source:Beaulieu M.Baeza-Yates R.Myaeng S.H.Jarvelin K., Proceedings of the Twenty-Fifth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 11 August 2002 through 15 August 2002, Tampere, 27-34
Identifier: 236826
Keywords: Informatics · Entry page search · Language models · Links · Parameter estimation · Prior probabilities · URLs · Algorithms · Computer simulation · Information retrieval systems · Optimization · Parameter estimation · Query languages · Search engines · Statistical methods · Websites · Entry page search · Language model · Unified resource language · Online searching

Abstract

Een belangrijke groep zoekopdrachten op het internet heeft ten doel de startpagina of 'entry page' van een organisatie te vinden. Zoeken naar een startpagina verschilt sterk van algemeen of 'Ad Hoc' zoeken. De resultaten van een simpel algemeen zoeksysteem zijn teleurstellend. In het rapport wordt gekeken naar drie aspecten van internetpagina's die niet met de inhoud te maken hebben: paginalengte, aantal inkomende links en URL-vorm. Vooral de URL-vorm bleek een goede voorspellende waarde te hebben. Met URL-vorm a-priori's vonden de auteurs meer dan 70% van alle startpagina's met rang 1 en tot 89% van de top-10. Kenmerken die niet met de inhoud te maken hebben kunnen eenvoudig worden opgenomen in het raamwerk van een taalmodel als a-priori waarschijnlijkheid.