donderdag 26 april 2007

Naam

Toen ik deze blog voor intern gebruik aanmaakte, had ik me niet zo om de naam bekommerd (en daar ook geen onderzoek naar gedaan). Als de techniek het maar ging doen! Naar aanleiding van de reactie van Edwin was ik net toch maar eens in Technorati gaan kijken. Bleken er nog tenminste zes andere blogs met deze naam te bestaan. De opmerking in mijn allereerste post op 16 januari, dat ik de naam niet erg origineel vond klinken, blijkt achteraf dus bewaarheid te worden. Weet iemand iets beters (nu de buitenwereld ook meeleest)?

woensdag 25 april 2007

De probabilistische catalogus

Door mijn eerdere opmerkingen over catalogi, naar aanleiding van de NVB-WB dag, was ik een artikel uit D-Lib magazine van begin dit jaar nog een keer wat beter gaan lezen:
The Online Library Catalog: Paradise Lost and Paradise Regained? van Karen Markey.
Met de meeste meningen en overwegingen daarin kon ik het zonder meer eens zijn. Opmerkelijk was dat de vier na te streven oplossingen voor het re-animeren van de catalogus die hierin werden opgesomd al in begin jaren '90 waren geformuleerd.


  1. Make subject searching in online catalogs easier using post-Boolean probabilistic searching with automatic spelling correction, term weighting, intelligent stemming, relevance feedback, and output ranking. [daar kom ik zo op terug]
  2. Streamline users' book selection decisions at the catalog by adding tables of contents and back-of-the-book indexes to cataloging (i.e., metadata) records [nog altijd op ons verlanglijstje]
  3. Reduce the many failed subject searches by expanding the online catalog with full texts—journal and newspaper articles, encyclopedias, dissertations, government documents, etc. [in Omega wel gerealiseerd; nu de catalogus nog]
  4. Increase finding strategies in online catalogs through the library classification [dat is natuurlijk typisch Amerikaans, waar classificaties een veel belangrijker rol zijn blijven spelen]

De elf literatuurreferenties die aan deze vier hoofdpunten uit Markey's betoog hingen, bleken inderdaad allemaal uit de periode van 1978-1991 te dateren!! Had er in die 16 (of zelfs 29) jaar dan niet wat meer kunnen gebeuren?

Interessant was verder dat onder punt 1 een lans wordt gebroken voor het vervangen van het puur Booleaanse zoeken in onze bibliotheeksystemen, door probabilistische zoektechnieken. Die benaming "post-Boolean" klinkt natuurlijk wel wat demagogisch, als het ware implicerend dat Booleaans dus maar akelig ouderwets is. Maar het is wel een duidelijke ondersteuning dat wij in Utrecht 8 jaar geleden een goede keuze hebben gemaakt, voor de na te streven wijze van zoeken in Omega en zijn voorganger. De meeste van de door Mackey genoemde technieken vormden daarvoor namelijk het belangrijkste uitgangspunt – ook al wordt die zoektechniek door sommige bibliotheekmedewerkers nog altijd met enige achterdocht bekeken.

maandag 23 april 2007

Ze lezen mee

Een paar dagen geleden stelde ik het lijstje met wellicht interessante andere innovatie/wetenschappelijke-bibliotheek-blogs samen, dat nu linksonder op deze pagina staat. Toen ik dat deed realiseerde ik me even niet dat daarmee automatische mailtjes aan de meeste van de eigenaren van die blogs gegenereerd werden. Zoals Wow!ter Gerritsma meteen blogde, was daarmee onze blog "uit de kast gekomen".
Buiten de UBU komt hij nu dus ook hier en daar in lijstjes voor. We mogen voortaan wel op onze woorden passen! (Of juist niet?)

donderdag 19 april 2007

Hoe gaat het met de catalogus?

Op 5 april had de NVB-afdeling Wetenschappelijke bibliotheken een studiedag georganiseerd onder de titel: "Onderwerpsontsluiting II; vinden en verbinden". Die titel gaf al aan dat er (een jaar geleden) ook al eens een "Onderwerpsontsluiting I" was geweest. Alleen ging het deze keer eigenlijk helemaal niet zo veel meer over onderwerpsontsluiting, maar des te meer - direct of indirect - over de toekomst van de catalogus. Bij het programma van de dag zijn intussen ook de powerpointpresentaties van de sprekers te vinden. Over twee bijdragen toch ook hier iets meer:


  1. "Zoekmachines kunnen het wel alleen" was de uitdagende titel die Theo Huibers had gegeven aan zijn bijdrage. Enigszins demagogisch suggereerde hij de toehoorders dat handmatig ontsluiten van informatie in toenemende mate overbodig wordt, dankzij moderne technieken van information retrieval - iets waar de directeur van Autonomy het zeker mee eens is. Een slecht verstaander zou hieruit kunnen concluderen dat we helemaal kunnen ophouden met het genereren van metadata voor onze catalogi. En dus eigenlijk onze catalogi kunnen opdoeken. Voor dat laatste zijn misschien wel argumenten aan te voeren, maar dan niet vanwege deze uitdagende uitspraak. Er is namelijk helemaal niet zo'n grote tegenstelling als die uitspraak lijkt te suggereren. Voor redelijk gestructureerde catalogi blijven metadata en bepaalde vormen van autorisatie wel degelijk nodig. Maar computerprogramma’s kunnen dergelijke metadata steeds beter zelf genereren, gebruik makend van veel van dezelfde mooie technieken die er achter de schermen voor zorgen dat de zoekmachines van Huibers "het wel alleen kunnen". Die mooie technieken hebben alleen wel veel meer digitale gegevens nodig dan nu in onze catalogi zitten. Dat komt dan goed uit, want grotere hoeveelheden digitaal beschikbare tekst – inhoudsopgaven, samenvattingen en flapteksten, zo mogelijk zelfs de hele inhoud – hebben we toch al nodig om onze catalogi te laten overleven. Want daarmee worden ook de extra diensten mogelijk, of we die nu Library-2.0 of Web-2.0 noemen, waarmee we nieuwe generaties gebruikers nog enigszins voor onze catalogi hopen te interesseren. Anders kunnen we die inderdaad wel opdoeken. En dat kwam uit de bijdrage van Jeroen, later op de dag, ook goed naar voren.

  2. De tweede bijdrage die ik nog expliciet wil noemen, is het verhaal van Barend Mons, waarin een Wiki wordt ingezet voor terminologie- en kennisbeheer op een gespecialiseerd vakgebied. Daarbij kwamen zowel aspecten van geautomatiseerde kennisextractie als van inhoudelijke validatie van die kennis aan de orde.
    Een read-only versie (PPS) van de powerpoint van Mons is in het eerder genoemde programma te vinden.
    Een vrijwel identieke versie (gewone PPT) is elders ook beschikbaar.
    Een hele lezing (in het Engels) over het zelfde onderwerp is ook te bekijken.
    (Dit is weliswaar iets minder rechtstreeks van toepassing op de catalogus, maar wel heel interessant en eigenlijk ook nauwer met onderwerpsontsluiting verbonden dan mijn inleiding suggereerde).

Kennelijk was het een inspirerende dag, want ook op andere blogs is een heleboel over deze bijeenkomst te vinden.

  • In de eerste plaats op Jeroen's net opgestarte eigen (Engelstalige) blog "Infopinio" (met voor de buitenlandse lezers vooral een samenvatting van de door hem zelf gepresenteerde gegevens).
  • Verder concludeerde Inge Angevaare van de KB in haar blog: "Bibliotheek moet een paar tandjes bij zetten"
  • Ook Thecla Ettema uit Delft blijkt over dit soort bijeenkomsten uitgebreid te bloggen.
  • En tot slot(?) had ik me hierdoor zelf laten inspireren voor de column in het komende mei-nummer van Informatie Professional ("De catalogus kan het wel alleen" vanaf 23 april al in de voorverkoop op mijn website).

maandag 16 april 2007

Bibliotheek 2.0

Op NING, waar iedereen zijn eigen "social network" kan beginnen, is gisteren ook een (Neder)landelijke community onder de naam "Bibliotheek 2.0" opgericht. Voorlopig - nou ja ook pas één dag - lijkt daar nog vooral het Nederlandse bibliobloggers-wereldje actief (Wow!ter, Dannielle, Edwin, Jan, ...). Bovendien lijkt die activiteit zich vooralsnog te beperken tot het reclame maken voor de eigen blogs. Maar misschien dat het toch nog wel interessant gaat worden.

PS: Het moet zo het Nederlandse neefje worden van de internationale Library-2.0 community.

Stemming


Hoe zou Autonomy deze zoektermen gestemd hebben? [klik op plaatje voor full-screen]

(Met dank aan Gerard van der Linde).