Traffic analysis

Vědecká knihovna Olomouc
Vědecká knihovna Olomouc
Česky English Deutsch

ATpar : heterogenní virtuální www-katalog Aleph-Tinlib

Miroslav Bartošek

1. Úvod

Dostupnost elektronických katalogů na globální počítačové síti spolu se zvyšováním efektivity navazujících služeb typu "Meziknihovní výpůjční služba" či "Electronic Document Delivery" dramaticky zvyšují zájem uživatelů o vyhledávání bibliografických informací a následné získávání primárních dokumentů i z geograficky vzdálených knihovnických center. Ve snaze vyjít vstříc těmto požadavkům začínají knihovny využívat nejnovějších počítačových technologií k různým formám integrace svých informačních bází, aby tak napomohly k překonání fyzické roztříštěnosti informací a tím snazšímu vyhledávání a lokalizaci potřebných informačních pramenů i na relativně velkém prostoru. Tuto integraci lze provádět v zásadě dvěma způsoby:
  1. fyzická integrace - fyzické slučování dílčích katalogů do jednoho centrálního katalogu (viz např. centrální katalog Univerzity Palackého v Olomouci), nebo kooperace knihoven na vytváření různých forem souborných meta-katalogů (viz např. připravovaný souborný katalog České republiky CASLIN)
  2. virtuální integrace - kdy nedochází k náročnému fyzickému slučování mnohdy velmi rozdílných informačních zdrojů, nýbrž údaje z různých systémů jsou pomocí vhodných nástrojů integrovány "na vyžádání" pouze virtuálně na obrazovce uživatele. Příkladem pokusu o virtuální integraci je systém ATpar, popisovaný v tomto článku.
Z hlediska flexibility i efektivity se virtuální integrace v řadě případů jeví jako velmi perspektivní cesta schůdná i v našich podmínkách charakterizovaných permanentním nedostatkem finančních a lidských zdrojů.

Velkým impulsem pro rozvoj virtuální integrace knihovních systémů se stává zavádění www-rozhraní knihovnických systémů; jiná technologie sdílení knihovních katalogů - protokol Z39.50 - je sice perspektivní, není však bohužel stále ještě většinou u nás nasazených knihovnických systémů podporována.

Cílem projektu ATpar (projekt INFRA LB98016, řešený v druhé polovině roku 1998 za finančního přispění Ministerstva školství, mládeže a tělovýchovy ČR v rámci podpory projektů výzkumu a vývoje) bylo definovat a prakticky realizovat programový systém pro paralelní prohledávání knihovních katalogů Aleph a Tinlib v prostředí World-Wide Web.

Vzhledem k dominantnímu postavení výše uvedených knihovnických systémů v akademické sféře v České republice (systém Aleph od izraelské firmy Ex Libris Ltd., jako hlavní systém v rámci projektu CASLIN, je instalovaný zejména ve velkých státních vědeckých knihovnách, v Národní knihovně a také na některých vysokých školách; systém Tinlib od americké firmy EOSi je nejrozšířenějším systémem ve vysokoškolském prostředí) by nasazení a rozšíření systému ATpar či jemu podobného umožnilo podstatně efektivnější přístup čtenářů k většině bibliografických informací z akademického prostředí v České republice.

Na řešení původního projektu spolupracovaly tři organizace:

  1. Masarykova univerzita v Brně
    (zodpovědná za vývoj vlastního programu ATpar)
  2. Palackého univerzita v Olomouci
    (zodpovědná za přizpůsobení Tinlib www-serveru požadavkům ATpar)
  3. Státní technická knihovna v Praze
    (zodpovědná za přizpůsobení Aleph www-serveru požadavkům ATpar)

Rozvoj systému ATpar pokračuje i po ukončení projektu LB98016 a to jak ve směru dalších funkčních vylepšení programu ATpar, tak i přizpůsobování nových verzí Aleph www-serveru (tyto aktivity řeší nyní Moravská zemská knihovna v Brně a předpokládá se zapojení i Vědecké knihovny v Olomouci, která jako první knihovna v ČR nasazuje Aleph verze 500).

2. ATpar - způsob řešení

Systém ATpar pro paralelní prohledávání www-OPACů knihovnických systémů Aleph a Tinlib pracuje dle následujícího schématu:

Uživatel se spojí pomocí standardního www-prohlížeče (Netscape, MS Explorer) s paralelním prohledávačem ATpar, v němž prostřednictvím formuláře specifikuje svůj rešeršní dotaz a množinu katalogů z předdefinované nabídky, které se mají prohledávat. Program ATpar poté rozešle paralelně uživatelův dotaz www-rozhraním všech zvolených katalogů a vyčká na odpovědi. Poté dílčí výsledky od jednotlivých katalogů uspořádá a zobrazí uživateli v podobě www-dokumentu, včetně hypertextových vazeb na vyhledané bibliografické záznamy přímo již do konkrétních katalogů.

Pro realizaci výše uvedeného modelu bylo nutné vyřešit tři hlavní úkoly:

  1. analýzu možností a specifikace funkcí jednotlivých komponent systému
  2. integraci dohodnutých funkcí do www-rozhraní knihovnických systémů Aleph a Tinlib
  3. implementaci paralelního prohledávače ATpar

Z analýzy možností www-rozhraní systémů Aleph a Tinlib vyplynuly následující skutečnosti a závěry pro implementaci systému ATpar:

  • možnosti přizpůsobovat funkce a tvar výstupů www-rozhraní knihovnických systémů jsou velmi limitované; větší funkční zásahy do příslušných "www-serverů" jsou buď nemožné (týká se systému Aleph, kde spoluřešitelé nemají možnost podstatně modifikovat Aleph-www server dodávaný firmou Ex Libris) nebo nereálné v časovém horizontu půl roku vyhrazeném na řešení původního projektu (TinWEB) - tomu bylo třeba přizpůsobit návrh funkcí a způsob realizace programu ATpar
  • jako výchozí pro implementaci systému ATpar byly stanoveny následující verze knihovnických systémů a jejich www-rozhraní:
    Aleph verze 300, www-server verze 3.2/x (nyní i 3.3/x)
    Tinlib verze 290, www-server TinWEB k6 (nyní i k7)
  • pro dosažení maximálně možné nezávislosti fungování systému paralelního vyhledávání na konkrétních verzích byl pro www-rozhraní obou systémů definován a implementován neformátovaný plain-text tvar výstupů pro dohodnuté vyhledávací funkce (řešitelé z STK Praha implementovali požadovaný tvar výstupů do www-rozhraní systému Aleph v podobě 'fiktivního' jazyka Aleph-ATP, řešitelé z UP Olomouc poskytli plain-text výstupy z rozhraní TinWEB)
  • TinWEB podporuje pouze vyhledávání typu SCAN (výsledkem hledání jsou hodnoty v abecedně setříděném rejstříku zvoleného typu; výběrem konkrétní položky z vyhledaných hodnot rejstříku lze ve druhém kroku přejít k záznamům odpovídajících dokumentů);
  • Aleph www-server podporuje jak vyhledávání typu SCAN, tak i FIND (výsledkem hledání jsou přímo záznamy dokumentů), nenabízí však funkci SCAN pro vyhledávání podle slov z názvů
  • jako základní množina vyhledávacích funkcí systému ATpar byly dohodnuty a následně implementovány tyto operace:
    
    vyhledávání podle                        funkce v TinWEBu    funkce v Aleph-www
    
    slov z názvů (začínajících na...)        SCAN                FIND
    
    názvů                                    SCAN                SCAN
    
    autorů                                   SCAN                SCAN
    
    nakladatelů                              SCAN                SCAN
    
    předmět. hesel                           SCAN                SCAN
    
    
  • zatímco TinWEB nabízí funkce překódování vstupů a výstupů podle uživatelem zvoleného typu kódování českých znaků, Aleph-www standardně pracuje se vstupem a výstupem pouze v kódování 8859-2 (ISO-Latin 2). K dosažení jednotného kódování vstupu/výstupu dle požadavků uživatelů musí ATpar zajišťovat překódování dat pro Aleph-www server.

3. Popis programu ATpar

Program ATpar (Aleph-Tinlib paralelní dotazovací systém) byl navržen a implementován za účelem transparentního prohledávání několika zvolených knihovních katalogů systémů Aleph a Tinlib pomocí jednoho dotazu. V současné podobě umožňuje ATpar shromažďovat dotazy z katalogů, které pro zpřístupnění informací v globální síti (Internetu) používají www-rozhraní Aleph-www 3.2/x, 3.3/x a/nebo TinWEB verze k6, k7.
Referenční verze systému ATpar je dostupná na http://tin.upol.cz/atpar/.

Základní pracovní princip ATparu spočívá ve dvou operacích:

  • emulace zaslání dotazu od (speciálního) uživatele na každý ze zvolených katalogů; program přitom řeší jednotné nastavení dílčích parametrů jako je počet zobrazených záznamů, volba prohledávacího prostoru (Názvy, Autoři, Nakladatelé, ...), zadání odpovídajícího tvaru dotazovaného řetězce, či kódování češtiny
  • prezentace jednotlivých výsledků v jediné přehledné tabulce se zvýrazněním shodných odpovědí a s možností dále navigovat přímo do jednotlivých katalogů či dále (v případě shody) do přehledové tabulky konkrétních titulů, jež vyhovují vybranému přesnému dotazu.

Pro implementaci programu ATpar byl zvolen programovací jazyk PERL (Practical Extraction and Report Language) a to z několika důvodů:

  1. PERL je jazyk zaměřený na efektivní zpracování formátovaného textu a pro extrakci informací z textových dat
  2. interpret PERLu je volně dostupný pro různé platformy - program PERLu je tedy automaticky snadno přenositelný
  3. pro PERL je k dispozici velké množství knihoven pro nejrůznější neinteraktivní programovací metody, ze kterých je pro naše účely zvláště výhodná analýza HTML textu, knihovna pro přenos dat z WWW, moduly pro překódování češtiny, apod.
  4. program ATpar vychází z programu ParTIN (paralelní prohledávání Tinlib-katalogů, ÚVT MU Brno), který byl také napsán v PERLu.

Tato volba s sebou přináší i některé nevýhody. Samotný zdrojový kód programu není možné přeložit do binárního tvaru, jedná se pouze o interpretovaný text. Při každém spuštění programu se tedy nejprve přeloží zdrojový text do objektového kódu, který je potom již bez výrazné ztráty rychlosti interpretován.

3.1 Funkce programu ATpar

Program ATpar funguje na principu CGI skriptu. Jedná se tedy o neinteraktivní program, který na základě parametrů, které dostane při spuštění od WWW serveru, generuje jako svůj výstup HTML dokument. Při spuštění bez parametrů program vygeneruje HTML stránku, která obsahuje jednak Formulář dotazu a jednak Stránku odpovědi.

3.1.1 Formulář dotazu

Formulář dotazu obsahuje všechny selekční prvky nutné pro přesnou specifikaci dotazu. Vzhled formuláře může mít dvě formy - základní a stručnou. V obou formách obsahuje tytéž prvky, u stručné formy, jde jen o kratší vyjádření popisků a nahuštěnější uspořádání selekčních prvků s cílem ponechat co největší prostor na obrazovce pro stránku odpovědí.

Selekční prvky ve formuláři jsou následující:

  1. menu pro volbu prohledávacího prostoru (typu vyhledávání).
    Nabídka obsahuje možnost hledání podle:
    • názvu
    • autora
    • nakladatele
    • předmětové skupiny
    • slov z názvu
  2. pole pro vstup hledaného řetězce,
    kde uživatel zadává vlastní dotaz, který se interpretuje podle zvoleného typu vyhledávání jako úvodní část názvu, jména autora, apod.
  3. výběrový seznam katalogů,
    v němž uživatel označí ty katalogy z nabídky, na které chce poslat uvedený dotaz. Každý z katalogů je zde označen celým jménem a zkratkou, která je používána při sestavování odpovědi. Seznam zde uvedených katalogů je plně konfigurovatelný, nastavuje jej správce WWW serveru, na němž je program ATpar umístěn.
  4. tlačítko pro spuštění vlastního hledání,
    tj. pro odeslání vyplněného formuláře programu ATpar ke zpracování.

    a případně tlačítko pro vyvolání stránky s nápovědou.

Před jednotlivými selekčními prvky je vždy uvedeno krátké navigovatelné návěští. Navigace přes tato návěští vede uživatele do stránky nápovědy na odstavec popisující zvolený selekční prvek.
3.1.2 Stránka odpovědi

Na této stránce se v průběhu činnosti ATparu zobrazují (dílčí) výsledky hledání. Stránka může nabývat jedné ze 4 forem:

  1. žádný dotaz - ihned po spuštění programu, ještě před vyplněním případně odesláním vyplněného formuláře, obsahuje stránka pouze informaci o tom, že zatím nebyl zadán žádný dotaz. Všechny tři ostatní formy stránky již nějakým způsobem reagují na vstup od uživatele.
  2. odkazy na katalogy - při odeslání formuláře, ve kterém byly vybrány některé katalogy k prohledávání, ale nebyl zadán žádný textový řetězec k vyhledání, se uživateli nabídne navigovatelný seznam všech zvolených katalogů. Přes jednotlivé odkazy se poté uživatel dostane přímo na www-stránku vybraného katalogu.
  3. seznam odpovědí - po získání kompletně vyplněného formuláře a shromáždění odpovědí zobrazí ATpar uživateli jednotlivé odpovědi abecedně uspořádané do tabulky. V prvním sloupci tabulky jsou přitom uvedeny zkratky těch katalogů, v jejichž odpovědích se nachází text uvedený v druhém sloupci. Tabulka má tedy například tento vzhled (část výsledku dotazu na monografie s názvem začínajícím na řetěz "internet"):
    MZK-UKN, STK -- Internet (18+11)
    UPOL, Internet :-)CZ : průvodce českého uživatele
    MZK-UKN, UPOL Internet a Intranet v protředí Windows NT (1+?)

    První položka výpisu udává, že selekční termín "internet" byl nalezen v 18-ti záznamech v Moravské zemské knihovně - katalog Univerzitní knihovny (zkratka MZK-UKN), a v 11-ti záznamech katalogu Státní technické knihovny v Praze (oba Aleph-katalogy). Druhá položka odkazuje na knihu v Tinlib-katalogu Univerzity Palackého Olomouc. Třetí položka odkazuje na knihu, která byla nalezena jak v katalogu MZK (v jednom záznamu), tak i v katalogu Univerzity Palackého (počet záznamů Tinlib-katalog na této úrovni neuvádí).

    V seznamu odpovědí jsou všechny texty navigovatelné. Navigace přes zkratku katalogu vede přímo na příslušnou odpověď do www-serveru toho jednoho katalogu. Navigace přes text odpovědi vede buď přímo do příslušného záznamu na www-serveru jednoho katalogu (pokud daný záznam obsahuje jen jediný katalog) nebo znovu na ATpar, který v případě shodných odpovědí z více katalogů zobrazí stručné informace o odpovídajících dokumentech (viz dále).

  4. stručné informace o odpovídajících dokumentech - pokud několik katalogů reagovalo na uživatelův dotaz stejnou odpovědí (např. katalogy obsahují knihy od stejného autora), je v seznamu odpovědí uveden odkaz do ATparu, který následně nabídne tabulku se stručným přehledem těch dokumentů, které odpovídají vybranému přesnému dotazu (např. knihy od onoho autora). Tabulka obsahuje pět sloupců s těmito informacemi: zkratka katalogu, signatura dokumentu, autor dokumentu, název dokumentu (tato položka je navigovatelná a vede přímo do katalogu na plný záznam dokumentu), rok vydání.

    Například aktivace odkazu

    Internet a Intranet v prostředí Windows NT (1+?)

    Z předchozího příkladu zobrazí následující tabulku:

    UPOL 496/98(PrF) Kastner, Aleš 1953- Internet a Intranet v prostředí Windows NT 1998
    MZK-UKN 2-1050.473 Kastner, Aleš 070 Internet a Intranet v prostředí Windows NT 1998

3.2 Činnost programu

Vlastní program funguje ve třech základních režimech - vygenerování stránky obsahující kostru oken pro Formulář dotazu a Stránku odpovědi (FRAMESET), vygenerování formuláře dotazu a vygenerování odpovědi. Implementačně nejsložitější je samozřejmě ta část, která obsahuje vlastní dotazovací mechanismus, tedy vygenerování odpovědi.

Ve všech třech režimech ATpar nejdříve načte a zpracuje konfigurační soubor. Podle nastavených parametrů pak program generuje dotaz a odpověď v odpovídající formě a zvoleném kódování češtiny.

V prvním režimu (generování framesetu) program pouze vygeneruje parametry pro WWW prohlížeč, které popisují správné rozdělení okna prohlížeče na dotaz a odpověď a zajišťuje předání parametrů ATparu pro další dva režimy.

Činnost ve druhém režimu je dostateně zřejmá z popisu Formuláře dotazu.

Ve třetím režimu (generování odpovědi) program nejprve zpracuje dotaz od uživatele a posléze jej rozešle ve formě vhodné pro jednotlivé typy katalogů na adresy uvedené v konfiguračním souboru. Po rozeslání dochází k čekání na odpovědi a paralelnímu sběru výsledků z jednotlivých katalogů. Pokud některý z katalogů neodpoví ve stanoveném časovém limitu (implicitně 30 sekund, lze modifikovat v parametrizačním souboru), déle se již na odpověď tohoto katalogu nečeká; sestaví se výsledná stránka z dílčích odpovědí ostatních dotázaných katalogů a v záhlaví výsledné stránky se zobrazí informace o tom, které katalogy v časovém limitu neodpověděly.

Po shromáždění všech výsledků ATpar analyzuje jednotlivé odpovědi a podle obsahu buď:

  • pošle další doplňující dotaz (v případě, že odpověď z katalogu obsahuje jen meziinformaci o celkovém počtu vyhledaných záznamů), nebo
  • naplní daty z odpovědi vnitřní struktury programu, které se následně využívají při konstrukci tabulky se seznamem odpovědí

Při tvorbě dotazu ATpar sice emuluje běžný dotaz WWW prohlížeče, ale přitom má určité speciální požadavky na tvar odpovědi. Tyto požadavky vzešly jako reakce na snahu získat co nejuniformnější formát pro komunikaci mezi ATparem a Aleph-www serverem či TinWEBem. Díky malé přizpůsobivosti Aleph-www serveru nebylo bohužel možné specifikovat zcela jednotné rozhraní společné oběma systémům; v obou případech bylo však využito přístupu, který zajišťuje snadnější návaznost u nových verzí systémů.

V případě systému Aleph byla využita možnost specifikovat v Alephu komunikační jazyk. Speciálně pro účely ATparu byl tabulkami Alephu popsán jazyk Aleph-ATP, který co nejvíce zestručňuje hlášky systému a umožňuje tím odstínit rozdíly v jednotlivých instalacích systému Aleph (podrobněji je jazyk Aleph-ATP popsán v samostatné dokumentaci určené pro správce systému Aleph).

U systému TinWEB byl částečně využit jeden ze speciálních módů pro komunikaci, který je v tomto systému určen právě pro neinteraktivní zpracování odpovědi. Jedná se o mód nabízející seznam výsledků ve tvaru jediného formátovaného řetězce.

Po vyhodnocení výsledků všech odpovědí ATpar generuje Stránku odpovědi ve formě popsané v odstavci 3.1.2 c). Jak je v tomto odstavci popsáno, uživatel může u shodných odpovědí z několika serverů navigovat dále v ATparu, který v tom případě pošle další (tzv. přesné) dotazy na odpovídající katalogy podobným mechanizmem jak bylo popsáno výše. Odpovědi na přesný dotaz potom ATpar zobrazí v tabulce ve tvaru z odstavce 3.1.2 d).

4. Další rozvoj systému

Jak již bylo uvedeno výše, první verze systému ATpar byla dokončena a odzkoušena v závěru roku 1998. V součanosti pokračují práce na nové verzi systému, která přinese jednak některá funkční vylepšení oproti první verzi (vyhledávání v nových typech dokumentů, potlačení zobrazování některých nerelevantních prvků odpovědi při dotazech BROWSE), jednak umožní potenciální nasazení systému ATpar v širším spektru Alephovských knihoven využívajících i nejnovějších verzí www-serveru.

Pro systém TinWEB připravují jeho autoři z UP Olomouc rozšíření vyhledávacích možností směrem ke kombinovaným vyhledáváním a implementaci vyhledávacích operací typu FIND. Tyto nové možnosti TinWEBu otevřou nový prostor pro realizaci složitějších typů vyhledávání v systému ATpar a umožní větší sblížení www-rozhraní obou systémů.


TIRÁŽ: Knihovní obzor. Čtvrtletník Vědecké knihovny v Olomouci. Redakce: redakcevkol.cz. Registrace MK ČR E 6450. ISSN (elektronická verze) 1214-6498.

Aktualizováno: 04.09.2008
Redaktor: správce www stránek
Pošli e-mailem
Trvalý odkaz


Vědecká knihovna Olomouc, ­ ­­­­­­­ ­Bezručova 659/2 ­Olomouc 9, 779 11­­­ tel.  +420-585 205 300 e-mail: vkol@vkol.cz   Otevírací doba: Po - Pá 8:30 - 19:00 So 9:00 - 13:00* Ne zavřeno       *MVS a studovna vázaných novin - zavřeno   ID datové schránky­­: yswjrie
Vědecká knihovna v Olomouci je příspěvkovou organizací zřízenou a financovanou Olomouckým krajem
Tvorba www stránek © Winternet 2008 - 2020
Aktualizováno: 25.02.2020 08:50
TOPlist