Over Zoeken en Zoekinstrumenten

- Waar en hoe vind je de informatie die je nodig hebt ? -

  1. Van surfen naar zoeken
  2. Typen zoekinstrumenten
    1. Bladerinstrumenten: onderwerpgidsen
      • Virtuele bibliotheken
      • Gidsen voor speciale onderwerpen
      • Geografische gidsen
    2. Zoekmachines en meta-zoekmachines
      • Zoekmachines en robots
      • Uniforme meta-zoekmachines
      • Multi meta-zoekmachines
      • Geografische zoekmachines
      • Speciale zoekmachines
  3. Welk instrument is het beste?
  4. Pas op voor zakkenrollers...
  5. Het gebruik van zoekmachines
  6. Meta-tags: het informeren van zoekmachines
  7. Begrijpen en vergelijken van zoekinstrumenten







"If you don't no where you are going,
then any road will take you there"
[Alice in Wonderland]







VAN SURFEN NAAR ZOEKEN

Het zoeken van informatie op het World Wide Web (WWW) kan een lange en moeizame taak zijn. Het vinden van de informatie die je nodig hebt in deze enorme verzameling van informatie en bronnen is zonder effectieve instrumenten zeer moeilijk. Het WWW is ontstaan als een kleinschalige bron voor het delen van informatie. Sindsdien is het WWW sterk uitgebreid. Het handmatig bladeren door een belangrijk deel van de hypertekststructuur is niet meer mogelijk, laat staan dat het een effectieve methode is voor ontsluiting van informatiebronnen. Er is gewoon te veel materiaal. Bovendien is het WWW zeer dynamisch, gedecentraliseerd en divers. Het is daarom niet vreemd dat veel mensen worden besprongen door een soort 'informatie angst' - zij krijgen het overweldigende gevoel dat er te veel informatie is of dat zij niet meer in staat zijn om informatie te vinden of gegevens te interpreteren.

Er zijn miljoenen Web pagina's. Volgens de laatste schattingen (maart 1998) staat er nu minstens 265 miljoen documenten op het Web (medio 1997 waren dit er nog 'slechts' 110 miljoen). Niemand weet het precies. Het Web groeit snel en verandert snel van karakter, wat niet zo vreemd is als er zoveel mensen online met elkaar communiceren. Per maand worden er ongeveer 20 miljoen nieuwe pagina's aan het Web toegevoegd. Wanneer deze explosieve groei op deze manier zou doorgaan, dan zou binnen vier jaar iedereen op aarde zijn eigen persoonlijke pagina op het Web hebben.

Tot voor kort was surfen de meest kenmerkende manier waarop mensen op het Web informatie probeerden te vinden. Surfen is een ongestructureerde manier van bladeren: je begint met een bepaalde Web pagina en volgt de links (verbindingen) van pagina naar pagina, doet ondertussen wat gissingen in de hoop vroeger of later toch te komen bij het gewenste stukje informatie. Surfen is leuk wanneer je veel tijd hebt om het Web te verkennen; serieuze ontdekkingsreizen nemen nu eenmaal veel tijd in beslag. Maar als je een bepaald stuk informatie snel wilt vinden, of dezelfde informatie nog eens moet opzoeken, dan verliest surfen en op goed geluk rondbladeren als snel zijn charme. Surfen is bladeren zonder instrumenten.

Nu het WWW zo gegroeid is, is het noodzakelijk geworden om over te gaan tot een snelle en gemakkelijke methode om in de webruimte te zoeken. Gelukkig zijn er inmiddels een groot aantal zoekinstrumenten ontwikkeld waarmee we dit kunnen doen. Zoekmachines zijn het front van een databestand van geïndexeerde WWW bronnen, waarin je sleutelwoorden kunt typen.

Het aantal zoekinstrumenten dat op het WWW beschikbaar is, is de laatste tijd sterk toegenomen. Dit heeft WWW gebruikers voor nieuwe problemen gesteld. Er is nu een overweldigende diversiteit van zoekinstrumenten - ze hebben allemaal verschillende eigenschappen, zien er anders uit en moeten op verschillende manieren worden gehanteerd. Veel zoekinstrumenten zijn verbonden aan meer of minder omvangrijke indexen van WWW bronnen, and sommigen beweren dat zij een omvattende index van het hele WWW bieden. Sommige zoeken naar namen van machines, directories of bestanden (de URL's) terwijl anderen ook zoeken naar titels en koppen van HTML-pagina's. Met sommige instrumenten kun je maar één index onderzoeken, terwijl het bij anderen mogelijk is om in meerdere indexen te zoeken.

De conclusie van dit verhaal zal zijn (a) dat er niet één beste of ideale manier van zoeken bestaat, en (b) dat er geen perfect zoekinstrument bestaat. Alle zoekinstrumenten hebben hun eigen sterke en zwakke kanten. Het beste is dus om te leren hoe je een heel arsenaal van zoekinstrumenten kunt hanteren. Ervaren gebruikers geven de voorkeur aan verschillende typen zoekinstrumenten afhankelijk van hun doelmatigheid voor het specifieke onderwerp waarin men geïnteresseerd is en van de persoonlijke zoekstijl. Al naar gelang de onderwerpen waarin je geïnteresseerd bent zul je dus zelf moeten uitvinden welke instrumenten het beste voor jouw doeleinden gebruikt kunnen worden.

Index


SOORTEN ZOEKINSTRUMENTEN

Als je informatie op het Internet wilt vinden dan kun je dit in principe op twee manieren doen: bladeren op onderwerp of zoeken met trefwoorden. In het algemeen kunnen we dus zeggen dat er twee soorten zoekinstrumenten zijn:

  1. De instrumenten voor het bladeren op onderwerp zijn de Onderwerpgidsen
  2. De instrumenten voor het zoeken op trefwoord zijn de Zoekmachines of navigators


Niet iedereen gebruikt dezelfde woorden voor deze instrumenten. De instrumenten voor het bladeren op onderwerp worden ook wel aangeduid als: 'wegwijzers', 'virtual libraries' of 'link libraries', 'subject indexes', 'subject trees' of 'searchable directories'. We zullen hier de term 'onderwerpgids' - of kortweg: 'gids' - gebruiken voor alle instrumenten waarmee je kunt bladeren op onderwerp.

De instrumenten voor het zoeken naar trefwoorden hebben ook verschillende namen: 'search engines', 'navigators', 'robots', crawlers', 'worms' etc. We gebruiken hier de term 'zoekmachine' als algemene aanduiding voor alle instrumenten waarmee je op trefwoord kunt zoeken.


1 Bladerinstrumenten: onderwerpgidsen

De informatie op het Internet kan toegankelijk worden gemaakt door het maken van een document of een verzameling lijsten met verbindingen die ingedeeld zijn naar hun inhoud. Een onderwerpgids is een gestructureerde en georganiseerde hiërarchie van categorieën waarin gebladerd kan worden voor informatie naar onderwerp. Onder elke categorie en/of subcategorie vind je verwijzingen ('links') naar de Webpagina's die over dat onderwerp gaan. Webpagina's worden ingedeeld in categorieën door de auteur van de Webpagina of door de beheerder van de onderwerpgids. Bij veel onderwerpgidsen kun je overigens in hun indexen zoeken op trefwoord.

Een onderwerpgids bevat een groot aantal verbindingen naar Internetbronnen via onderwerpcategorieën die gemaakt zijn door iemand die zowel bekend is met het onderwerp als met de manier waarop mensen daarbinnen naar informatie zoeken. Het is een meer of minder intelligent ontworpen 'bibliotheek van verbindingen' resp. een 'index van verbindingen' die samengesteld is door experts op dit onderwerp. De bedoeling hiervan is om een leidraad te bieden voor mensen die op zoek zijn naar kwalitatief goede bronnen. Elektronische gidsen brengen ons snel naar de voor ons mooie en interessante plekjes op het Internet. Zij gidsen ons door de onoverzichtelijke wirwar van het gigantische aanbod aan mogelijkheden en zorgen ervoor dat we niet verdwalen in het moeras van geprietpraat en irrelevante zijwegen.

Onderwerpgidsen zijn meestal hiërarchisch opgebouwd zodat het makkelijker is om van het algemene naar het specifieke onderwerp van belangstelling te navigeren. In dit opzicht zijn de gidsen vergelijkbaar met een onderwerpcatelogus van de bibliotheek. Via een fijn vertakte onderverdeling kunnen je van hoofdcategorie naar subcategorie afdalen (en uiteraard ook weer terug). In goed geconstrueerde gidsen worden vaak dwarsverbindingen gelegd tussen verwante thema's onder verschillende kopjes.

Het domein van onderwerpgidsen is kleiner dan dat van de meeste zoekmachines en hun kwaliteit is afhankelijk van de expertise van de mensen die de selectie verrichten.

Algemene virtuele Bibliotheken Sommige onderwerpgidsen presenteren hun bronverwijzingen met korte beschrijvingen. Deze virtuele bibliotheken zijn meestal erg groot met minimale drempels ten aanzien van wat erin wordt opgenomen. Bekende virtuele bibliotheken die links met korte annotaties bieden zijn: Galaxy, Infomine, Internet Public Library, Internet Sleuth, Planet Earth, WWW Virtual Library, WebSurfer, en de uiterst populaire Yahoo.

Recenserende virtuele bibliotheken Sommige virtuele bibliotheken bieden een belangrijke toegevoegde waarde bij elke verbinding met commentaren en waarderingen ('ratings') die door ervaren recensenten worden opgesteld. Voorbeelden hiervan zijn: NetReviews (van Excite), Magellan, Point Communications, and WIC (voorheen GNN's Whole Internet Catalog).

Gidsen voor specifieke onderwerpen Er zijn virtuele bibliotheken die gespecialiseerd zijn op specifieke onderwerpen. Zij functioneren als thematische bibliografieën voor Internetbronnen en worden door specialisten ontworpen. Deze onderwerpgidsen zijn helemaal toegespitst op een bepaald thema of specifieke discipline. De SocioSite is hiervan een typisch voorbeeld. Andere voorbeelden zijn de WWWoman (van/voor/over vrouwen), Yahooligans (voor kinderen), ArchNet WWW Virtual Library (voor archeologie) en de Clearinghouse for Subject-Oriented Internet Resource Guides (vooral interessant voor sociale wetenschappers).

Geografische gidsen Geografische gidsen zijn gidsen waarin je kunt zoeken in specifieke werelddelen, landen, regio's, steden enz. Vaak maken zij gebruik van een serie kaarten die telkens gedetailleerder worden en waarmee je snel naar de plek kan klikken waar je naar toe wilt. Het is bladeren in de geografische ruimte. Voorbeelden van dergelijke gidsen zijn: CityNet (van Excite), Virtual Tourist2, GeoSurfer en de Dutch Home Page (waarin je binnen Nederlandse steden kunt zoeken).


2 Zoekmachines en meta-zoekmachines

Een zoekmachine of zoekmotor is een trefwoordenregister ('index') dat automatisch wordt samengesteld door slimme computerprogramma's zoals robots en spiders die over het Internet zwerven om bronnen te ontsluiten en te verzamelen. Zoekrobots volgen ook de verwijzingen die ze op pagina's tegenkomen, halen de informatie over en zetten deze informatie vervolgens in een databestand. Vaak wordt deze informatie daarna ook nog door redacteuren in rubrieken ondergebracht.

De termen robot, spider, crawler, wanderer en worm worden gebruikt voor computerprogramma's die ontworpen zijn om op het Internet informatie te ontdekken en te compileren. Deze programma's hebben meestal een databestand om de gegevens te organiseren die zij tegenkomen op de sites die zij bezoeken. Meestal wordt dit databestand op het Web gezet, zodat de gebruiker erin kan zoeken. Omdat elke robot geprogrammeerd is om het Web op een verschillende manier te onderzoeken (de informatie wordt dus anders vergaart, gerangschikt en gewogen), kan de informatie die in elk databestand is opgeslagen sterk uiteenlopen.

Een Web spider of robot onderzoekt een document en indexeert het, of voert het in het databestand in, op grond van woorden die uit de titel of de tekst worden gehaald. Bovendien zoekt zo'n programma in het document naar verwijzingen of URL's voor andere documenten die nog niet zijn geïndexeerd. Zoekmachines werken volgens het principe dat de informatieve inhoud van een document kan worden samengevat door woorden die al in de titel of tekst staan. De opgehaalde tekst wordt geordend en gerangschikt door zijn positie in titel of tekst, het aantal keren dat deze in het document voorkomt, en andere criteria. Hierdoor elimineert het databestand het aantal incidentele woorden of zinsnedes (die bekend staan als 'false drops') en houdt zij documenten over die relevant zijn voor het onderwerp.

Gebruikers kunnen een verbinding maken met de site van een zoekmachine en trefwoorden invoeren om de indexen te onderzoeken. Webpagina's en andere Internetbronnen die corresponderen met de zoekopdracht worden geïdentificeerd en opgesomd.

Niet alle zoekmachines werden gelijk geschapen. Zoekmachines variëren in de omvang van de index, de frequentie waarmee de index wordt geactualiseerd, de zoekopties, de snelheid waarmee je resultaten terug krijgt, de presentatie van de resultaten, de relevantie van de documenten die in de resultaten zijn opgenomen, en het algemene gebruiksgemak.

Er zijn verschillende soorten zoekmachines:

  1. Algemene zoekmachines
  2. Uniforme meta-zoekmachines (verenigde zoekmachines)
  3. Multiforme meta-zoekmachines (compilaties van zoekmachines)
  4. Geografische zoekmachines
  5. Speciale zoekmachines


Algemene zoekmachines Algemene zoekmachines zoeken alleen in het Web maar ook in andere typen van internetbronnen. Zij verschillen sterk in omvang, zoekfuncties, wijze van presentatie en relevantie voor specifieke onderwerpen. Voorbeelden zijn: AliWeb, Alta Vista, Excite, HotBot, Infoseek, Inktomi, Lycos, OpenText, Ultraseek, and WebCrawler.

Uniforme meta-zoekmachines Sommige zoekmachines maken het mogelijk om in andere zoekmachines te zoeken. Zij worden meestal meta-zoekmachines genoemd. Met deze zoekmachines kun je vanuit één punt enorme gebieden van servers en documenten onderzoeken. De uniforme meta-zoekmachines ('multi-threaded search engines') zijn het meest intelligent. Ik noem ze uniforme meta-zoekmachines omdat zij vanuit één formulier alle andere zoekmachines aanroepen en in werking stellen. Een zoekopdracht wordt automatisch en meestal tegelijkertijd (parallel) in diverse grote zoekmachines uitgevoerd. Vaak worden direct alle dubbel gevonden documenten geëlimineerd en worden ze in begrijpelijke rubrieken gegroepeerd. Je ziet dan snel welke documenten relevant zijn en welke niet. Sommige uniforme mega-zoekmachines (zoals iFind) zijn gemaakt voor mensen die het zat zijn om steeds weer te moeten klikken op "Next 10 hits". Voorbeelden van deze zoekmachines met een geuniformeerde interface zijn: All4One, Dogpile, iFind, JavaBot, MetaCrawler en SavvySearch.

Multiforme meta-zoekmachines De tweede soort meta-zoekmachines zijn compilaties ('multi-form frond-ends) voor andere zoekmachines. Met deze meta-zoekmachines kun je vanuit een site formulieren invullen voor zoekopdrachten in verschillende zoekmachines op een seriële manier (dus een voor een). Dit kan erg handig zijn, maar soms moet je toch ingrijpen en je zoekopdracht verfijnen met de functies van de individuele zoekmachines. Voorbeelden zijn: All-in-One (een compilatie van formulieren voor meer dan 120 zoekmachines), 2ask (honderdend zoekmachines), Internet Sleuth (idem), Infomine (meer dan 90), Search.com (meer dan 250), Cui W3 en Cusi.

Geografische zoekmachines Dat zijn zoekmachines die georganiseerd zijn naar continent, land, stad enz. Zij maken vaak gebruik van een serie kaarten die steeds gedetailleerder worden en waarmee je de plaats kunt bereiken waar je naar toe wilt. Soms is dit de snelste manier om bij een bepaalde lokale bron te komen. Zij zijn erg snel in het vinden van Internet sites in verre gebieden. Voorbeelden hiervan zijn de Dutch Home Page (DHP), de digitale steden, VityNet en GeoSurfer.

Speciale zoekmachines Ongelofelijke hoeveelheden erg nuttig materiaal is te vinden in andere delen van het Internet. Er bestaat een hele horde van gespecialiseerde zoekmachines die gericht zijn op: Gophers, FTP sites, NewsGroups en Mailing Lists, Libraries, Ejournals, Software, Shareware, Produkten en Diensten, Personen en Organisaties. Een aantal van deze speciale zoekmachines zullen op deze pagina's apart worden besproken.

De onderscheidingen tussen de typen zoekinstrumenten zijn aan het vervagen. Zo combineert Magellan de talenten van menselijke indexeerders met een geautomatiseerd spiderprogramma. Recent is het gefuseerd met Excite. Ook Webcrawler werd door Excite opgekocht van AOL. Infoseek heeft een erg op Yahoo lijkende reeks van hiërarchische onderwerpcategorieën en de sites van Excite en Lycos bieden naast hun zoekmachines ook review diensten aan. Bijna alle zoekmachines zijn bezig hun sites uit te bouwen tot 'webportals', waarin uiteenlopende diensten zoals gratis e-mail, internet-gidsen en babbelkanalen worden samengebracht. Bijna alle zoekmachines hebben zich in de loop der tijd in de richting van sterk gecommercialiseerde portalen of startpagina's ontwikkeld. De resultaten van zoekmachines lijken informatie te bieden vanuit een objectieve databank geselecteerd door een objectief algoritme. Maar in werkelijkheid bieden zij steeds nadrukkelijker betaalde advertenties in vermomming [zie hiervoor de door de Amerikaanse consumenten-activist Ralph Nader opgerichte Commercial Alert].

Index


WELK INSTRUMENT IS HET BESTE ?

Het antwoord op deze vraag hangt af van waar je naar op zoek bent. De keuze van het zoekinstrument is afhankelijk van het soort informatie dat je zoekt. Er is een toenemend aantal gespecialiseerde zoekmachines die alleen pagina's over één bepaald onderwerp indexeren. Bijna elke zoekmachine doet iets beter of sneller dan de rest. Door ze te gebruiken leer je wat de verschillen zijn. Voor omvangrijke zoeksessies kun je het beste meerdere zoekmachines raadplegen. Want geen van de zoekmachines is in staat om alle pagina's op het web te vinden en bovendien worden de resultaten telkens weer op een andere manier geordend.

De meeste mensen beginnen met Yahoo! (www.yahoo.com) omdat dit het meest bekende zoekinstrument is. Dit is geen slechte keuze omdat het toevallig ook nog eens een van de betere en meest omvattende onderwerpgidsen is. Yahoo! is een goede plaats om te beginnen wanneer je naar een bekende website op zoek bent. Maar het is een door mensen gemaakte gids en bevat daarom slechts een beperkte hoeveelheid informatie. Uiteindelijk is natuurlijk alles mensenwerk (ook robots worden door mensen gemaakt!), maar handmatig geconstureerde (algemene, thematische of geografische) gidsen hebben meestal een beperkter databestand dan geautomiseerde, met robots opererende zoekmachines. Yahoo! krijgt steeds sterkere concurrentie van About.com (www.about.com) die door zo'n duizend experts wordt samengesteld.

Voor sociologen is Clearinghouse een produktieve informatiebron. Deze meta-gids heeft gespecialiseerde gidsen voor veel onderwerpen in de sociale wetenschappen.

Bij de echte zoekmachines zijn veel mensen onder de indruk van Excite en InfoSeek. Dat is niet ten onrechte, want het zijn fantastische zoekmachines die in veel tests als eerste uit de bus komen. Maar er zijn een paar zeer goede en snelle alternatieven: HotBot, Alta Vista en Google krijgen ook zeer hoge cijfers -- ze hebben indrukwekkend omvangrijke en diverse databestanden, ze zijn snel en bieden actuele verwijzingen, en ze zijn gratis. Samen geven ze je bijna alle resultaten die je nodig hebt. Als je daarbij ook nog gebruikt maakt van de WWW Worm, dan heb je eigenlijk geen behoefte meer aan iets anders. Als je naar trefwoorden in documenten zoekt, dan is Open Text extreem snel.

Met de meta zoek-machines krijg je vanuit een punt toegang tot verschillende zoekmachines. Er komen steeds meer mega- of meta-zoekmachines op de markt, waarbij vooral de uniforme meta-zoekmachines van belang zijn. Zij maken immers tegelijkertijd gebruik van alle/vele grote zoekmachines en integreren de resultaten daarvan. Daarbij geeft MetaCrawler in het algemeen de beste resultaten. Maar zij wordt steeds meer opgejaagd door nieuwe systemen zoals iFind en JavaBot. Meta-zoekmachines zijn erg nuttig, maar zij hebben ook beperkingen: zij bieden niet de volledige mogelijkheden om de oorspronkelijke zoekmachine aan te passen aan je eigen interesses. De resultaten zijn dus meestal minder nauwkeurig. Bovendien zijn zij nogal eens pijnlijk traag: een meta-zoekmachine moet de zoekopdracht doorgeven aan diverse sites, die bezig kunnen zijn met ander werk: de servers die deze gratis diensten leveren, moeten vaak in hun eigen onderhoud voorzien door 'echt werk' te verrichten, zoals complexe dataverwerking en het maken van ingewikkelde berekeningen voot sterrekundigen. De vertragingen die hierdoor kunnen ontstaan leiden soms tot een stilstand in het zoekproces. Je krijgt de beste resultaten door in je zoekopdracht slechts een trefwoord te gebruiken. De reden hiervoor is dat er geen standaard bestaat voor zoekmachines op het Internet en dat zij allemaal hun eigen manier hanteren of de trefwoorden die je invoert te hanteren. Wanneer je twee of meer woorden invoert zullen sommige zoekmachines deze woorden implicitiet interpreteren als een OR of als een zinsnede, terwijl anderen ze behandelen als een impliciedt AND of als een zinsnede/frase. Meta-zoekmachines zijn alleen nuttig als je een erg brede zoekactie wilt doen of wanneer je bekend bent met het databestand dat je ondervraagt. Het is net als met alle andere dingen in het leven: je geniet er het meeste van als je volledig bewust bent van de beperkingen.

Op de zoekpagina's van "Zoeken doe je Zo..." vind je korte besprekingen van de belangrijkste zoekmachines. Zij geven een beschrijving van de eigenschappen van de zoekmachine, de inhoud en omvang van het databestand, de manier van zoeken en de aard van de resultaten, en van hun sterke en zwakke kanten.

Index


LET OP JE PORTEMONNEE...

Gratis zoekmachines zijn een bedreigde soort. Tot voor kort waren de beste zoekmachines gratis. De meest recente zoekmachines, zoals UltraSeek, zijn ontworpen op een geld-voor-zoeken basis. Magellan is nu nog gratis, maar het is de bedoeling van de ontwikkelaars om hun diensten alleen beschikbaar te maken via Internet providers met een licentie. Galaxy is opgekocht door Sunriver, waarschijnlijk voor commerciële doeleinden. America Online heeft nog niet zo lang geleden Yahoo, GNN's Whole Internet Catalogue, WebCrawler en de Internet databestand specialisten WAIS Inc. opgekocht, met het potentieel om in de toekomst inschrijving te eisen. Het Microsoft Netwerk heeft Lycos gelicenseerd.

Wat al deze acquisities betekenen voor de kosten van het zoeken op het Internet is nog onzeker. Maar een ding is duidelijk: zij willen enorme winsten maken en jij bent het potentiële slachtoffer van hun exploiterende strategieën. Let dus op je portemonnee en steun alle initiatieven om het Internet te decommercialiseren.
Sommige mensen denken dat commercialisering ook voor de gewone gebruikers voordelen heeft. Zij verwachten dat de zoekinstrumenten beter worden wanneer we gaan betalen voor zoekacties. We hebben allemaal behoefte aan gebruiksvriendelijke zoekinstrumenten die supersnel uiterst nauwkeurige resultaten kunnen opleveren. Wie gelooft dat alleen door commercialisering van het Internet dit doel naderbij gebracht zal worden, zal ook bereid moeten zijn om hiervoor een hoge prijs te betalen. Want dat is niet alleen het geld dat voor elke zoekactie betaald zal moet worden. Het is ook het verlies van de vrije toegang tot informatie op het Internet. Commercialisering van de zoekmachines betekent dat de elektronische toegang tot informatie als een waar verkocht gaat worden aan degenen die ervoor kunnen betalen. Het betekent een wezenlijke aantasting van de rechten van de Internet burgers -- het verlies van een bevrijd gebied dat met grote inspanningen is veroverd.

De populaire zoekinstrumenten hebben de laboratoria van de computerwetenschappers verlaten en zijn nu verbonden met winstgerichte organisaties. Zo gaat dat meestal in het post-moderne tijdperk van het cyberkapitalisme. Maar dit is geen natuurlijke wet. Socale structuren worden door mensen gemaakt en kunnen dus ook altijd door mensen veranderd worden. En dat geldt ook voor de manier waarop de toegang tot de enorme rijkdom aan informatie op het Internet wordt georganiseerd. Het inbouwen van financiële drempels zou het open karakter van het Internet wezenlijk aantasten. Men mag en kan zich daartegen verzetten. Voor democratische initiatieven hoeft niemand zich te schamen - integendeel.

Index


HET GEBRUIK VAN ZOEKMACHINES

De WWW interface voor zoekmachines bestaat meestal uit een formulier dat op een web pagina verschijnt. Daarin kunnen trefwoorden worden ingevoerd en vind je een knop waarmee je de zoekopdracht kunt activeren. Soms zijn er ook nog kleine menu's voor het selecteren van bewerkingstekens zoals 'AND', 'OR', 'NOT' en 'NEAR'. Deze bewerkingstekens worden 'Boolean operators' genoemd (naar de Engelse wiskundige Boole, 1815-1864). Sommige zoekmachines - zoals Alta Vista - ondersteunen het Booleaanse zoeken volledig. Je kunt 'and', 'or', 'not' en 'near' gebruiken om een zoekactie uit te breiden of te beperken.

Veel zoekmachines hebben twee interfaces - een voor het eenvoudige zoeken op trefwoord en een andere voor meer geavanceerde zoekacties met behulp van booleaanse bewerkingstekens. De interfaces voor eenvoudig trefwoordzoeken staan op de home page van elke zoekmachine. Dit zijn dus de eerste interfaces die de gebruiker ziet. Veel gebruikers zijn geneigd om alleen deze standaard te gebruiken en nemen niet de moeite om de andere opties te verkennen. Deze interfaces bieden meestal een snel en gemakkelijk te gebruiken instrument voor erg eenvoudig zoeken op het WWW. Het gebruik van deze eenvoudige zoekinstrumenten wordt echter steeds problematischer - niet alleen vanwege de omvang van het WWW, maar ook door de grote diversiteit van het beschikbare materiaal.

Elke zoekmachine heeft zijn eigen specifieke kenmerken en capaciteiten. In de meeste gevallen krijg je op de site zelf instructies voor het gebruik van de zoekmachine. Deze instructies kunnen onbekende termen bevatten die slaan op specifieke functies. Daarom geven we hier korte omschrijvingen van een aantal functies die je bij veel zoekmachines zult tegenkomen.

Zoekacties in natuurlijke taal ('Natural Language Queries'): Opdrachten in de natuurlijke taal zijn voor nieuwe gebruikers van het Internet uiteraard de gemakkelijkste manier om in het Web te zoeken. Gebruikers voeren hun vragen in gewoon Engels in, en de software van de server destileert hieruit de relevante sleutelwoorden om een zoekactie in het databestand uit te voeren. Als je bijvoorbeeld de zin invoert "Find pages about all the animals in Africa and please don't forget the elephants" dan levert dit de volgende afzonderlijke trefwoorden op: animals, Africa, elephants.

Zoeken met bewerkingstekens ('Boolean Searching'): Met Booleaans zoeken kun je zoektermen in logische groepen zetten door middel van verbindende termen. Een van de meest gebruikelijke manieren waarop servers meerdere trefwoorden behandelen is door ze met elkaar te verbinden met de bewerkingstekens AND, OR, NEAR of NOT.

Elke zoekmachine verklaart zijn verbindende termen voor booleaans zoeken in zijn help of FAQ bestand. Sommige systemen zijn standaard afgesteld op een bepaalde verbindingsterm zonder dat je deze hoeft te gebruiken. In sommige gevallen wordt dus cats dogs behandeld als cats OR dogs.

Trefwoord controletekens ('Keyword Controls'): Bij sommige machines kun je elk trefwoord afzonderlijk kwalificeren. Voor elk trefwoord in de zoekopdracht kun je dan speciale tekens gebruiken zoals + of - om aan te geven dat zij zijn vereist (net als het bewerkingsteken AND) of dat zij juist niet zijn vereist in het document (net als het bewerkingsteken NOT). Als je trefwoorden niet kwalificeert dan worden zij meestal automatisch verbonden met het bewerkingsteken OR. Bijvoorbeeld, een zoekactie met trefwoord controletekens "dogs, cats, elephants -ants +flies" is hetzelfde als de booleaanse uitdrukking "(cats OR dogs OR elephants) AND (NOT ants) AND flies".

Trefwoorden in contekst ('Keyword in context' - KWIC): Met deze zoekopdracht krijg je het trefwoord terug en N woorden naast het trefwoord om de gebruiker de contekst aan te geven waarin het trefwoord werd gevonden.

Zoeken naar frasen ('Phrase Searching'): Hiermee is het mogelijk om te zoeken naar frasen of zinsnedes. Dat is nuttig wanneer je bijv. op zoek bent naar documenten over de "Vereniging van sukkels zonder sokken in Zwitserland" en je niet geïnteresseerd bent in alle mogelijke documenten over zowel 'vereniging', 'sukkels', 'sokken' als 'Zwitserland'. In de meeste zoekmachines kun je naar frasen zoeken door de zinsnede die je zoekt tussen aanhalingstekens te zetten. Dit geldt bijv. voor Alta Vista, InfoSeek en WebCrawler. HotBot en Open Text ondersteunen het zoeken naar frasen via hun menus.

Zoeken in nabijheid ('Proximity Searching'): Hiermee kun je naar een term zoeken die binnen N woorden van een andere term staat. Daarmee kun je de zoekactie beperken.

Retourinformatie over relevantie ('Relevance Feedback'): Hiermee wordt geprobeerd om te meten hoe goed de geleverde resultaten overeenkomen met de zoekopdracht. De mate van relevantie wordt meestal in kwantitatieve termen weergegeven tussen 0 en 100 of tussen 0 en 1000.

Zoeken naar ingekorte woorden ('Truncation Searching'): Dit maakt het mogelijk om te zoeken naar woorden die een verschillende uitgang of achtervoegsel hebben (en dus ook naar meervouden van woorden). Je moet hiervoor een 'wild card' symbool gebruiken. Om het meeste uit een zoekopdracht te halen moet je de trefwoorden tot hun stam herleiden en het zoeken uitbreiden tot alle vormen van dat stamwoord. Stel dat het inkortingssymbool * is. Wanneer je nu de zoekterm econom* invoert dan krijg je documenten terug met economic, economics, economy, econometric enz. Je kunt ermee in de fout gaan. Want het trefwoord Car* levert niet alleen documenten op waarin het woord 'car' en 'cars' voorkomen, maar ook 'cartoon'. De meeste servers verrichten deze inkortingsfunctie automatisch volgens hun eigen regels. Sommige servers laten de gebruikers kiezen welke woorden ingekort moeten worden. Meestal kun je hiervoor het * teken achter het einde van de woordstam zetten. Lees de individuele helpbestanden van de zoekmachines om er achter te komen welk symbool men voor deze functie gebruikt.

Index


META-TAGS: HET INFORMEREN VAN ZOEKMACHINES

Bij gebrek aan andere informatie, zullen de meeste zoekrobots alle woorden in uw document (met uitzondering van commentaren) indexeren. Vaak gebruiken zij de eerste woorden van het document als een korte samenvatting.

Bij sommige zoekrobots kun je echter zelf bepalen hoe jouw pagina geïndexeerd wordt, door een META-tag te gebruiken in hetelement van je pagina. Daarmee kun je extra sleutelwoorden specificeren voor de index, en een korte beschrijving. Gebruik hiervoor de volgende syntax:

<meta name="description" content="Schrijf hier je beschrijving">

<meta name="keywords" content="Schrijf hier je trefwoorden">

De trefwoorden en beschrijvingen worden op dezelfde manier geïndexeerd als de rest van de tekst op de pagina.

Stel dat je pagina het volgende bevat:


Zoekrobots als Alta Vista, HotBot, Infoseek en Lycos zullen dan twee dingen doen:


SocioSite - Going Dutch Sociology
A multi-purpose site for sociologists.
http://www.sociosite.net - size 203MB - 1 Feb 06

Er zijn nog een aantal andere meta tags. Een daarvan is in dit verband nog van belang, de robots tag. Hiermee kan je aangeven dat een bepaalde pagina niet door een zoekmachine geïndexeerd moet worden. Het formaat ziet er zo uit:

<META NAME="ROBOTS" CONTENT="NOINDEX">

Deze tag wordt echter niet door alle zoekmachines ondersteund.

Meta tags zijn helaas geen magische oplossing voor alle indexeringsproblemen. Voor zoekmachines die geen gebruik maken van meta tags (zoals WebCrawler en Open Text) kun je het beste een samenvattende paragraaf bovenaan de tekst zetten. Deze samenvatting mag niet langer zijn dan 250 lettertekens en moet de eerste zichbare tekst op het scherm zijn wanneer de pagina is geladen.

Sommige zoeksystemen, zoals Excite, doen weer iets anders. Zij proberen het onderwerp van de webpagina te bepalen middels een kunstmatige intelligentie routine. Helaas mislukt dit maar al te vaak. Maar je kunt ze een handje helpen door een samenvattend paragraaf in een commentaar container te zetten en deze een paar keer te herhalen.


Index


© Albert Benschop, Universiteit van Amsterdam
juni 1996 -
Laatst gewijzigd: