Traffic analysis

Vědecká knihovna Olomouc
Vědecká knihovna Olomouc
Česky English Deutsch

Memoriae mundi series Bohemica - digitalizace rukopisů a starých tisků

Výsledky spolupráce NKČR s firmou Albertina icome Praha s.r.o.


Ing. Stanislav Psohlavec

Všechny fotografie © Stanislav Psohlavec.
psohl01.jpg
Digitalizovat nebo ochraňovat originály,
... toť (chybná) otázka.

Jako fakt bereme, že zpřístupnění obrazu dokumentů je účelné především v elektronické formě a že tato forma bude stále více převažovat nad studiem mikrofilmů i originálů. Při úvahách zda digitalizovat se přes toto tvrzení nejprve zamyslete nad následujícími otázkami:

  • Proč konkrétní dokument zpřístupňovat v digitální formě?
  • Existuje kvalitní mikrofilm, lze jej digitalizovat, stačí černobílý obraz?
  • Může být digitální kopie často žádaného originálu přijatelnou náhradou pro více badatelů?

Každé omezení používání originálu přispívá k jeho ochraně.

  • Když digitalizovat, tedy v jaké kvalitě a jakými prostředky?
  • Co digitalizovaný dokument může a co nemůže nabídnout?
  • Které dokumenty digitalizovat a pro koho je zpřístupňovat?

Digitalizace historických dokumentů je časově náročná a stále ještě drahá záležitost. Proto je velmi závažný požadavek na standardizaci a dlouhodobou použitelnost vznikajících dat. Tento příspěvek předkládá naše úvahy vedoucí k společné snaze přispět k vytvoření akceptovatelných základů pro spolupráci mezi nejrůznějšími pracovišti. Tyto úvahy již mají svůj reálný obraz ve výsledcích, kterých jsme dosáhli s NKČR.

Cíl digitalizace - ochrana a zpřístupnění.

Řešení této problematiky rozdělujeme do zřetelně oddělených, samostatných úrovní a pro každou si klademe zásadní otázky. Odpovědné hledání odpovědí na všech úrovních vede k úplnému praktickému řešení, které se snažíme v NKČR postupně realizovat.

Digitální obraz
Pro koho je určen, co od něj očekáváme, může být nadčasový?.
Digitální dokument (obraz, zvuk...+ informace o nich)
Lze vytvořit digitální dokument nezávislý na programech a technice? Proč SGML a HTML?
Zpřístupnění digitálních dokumentů
Lze trvale použít měnící se moderní technologie k zpřístupnění těchto digitálních dokumentů?
Dlouhodobé uchování digitálních dokumentů
Je šance na bezpečné dlouhodobé uchování digitálních dat? Jakou roli hraje použité medium?

Historie

V roce 1992 začala Národní knihovna České republiky spolupracovat s naší firmou Albertina icome Praha v oblasti digitalizace a zpřístupňování historických dokumentů elektronickou cestou. Na podnět UNESCO jsme s NK v rámci projektu "Paměť světa" vytvořili první CD-ROM disky představující nejvzácnější rukopisy uložené v Národní knihovně.

Díky těmto pracím jsme se seznámili s nejrůznějšími koncepcemi, cíly a výsledky mnoha podobných pracovišť a vzali za své cíle projektu "Paměť světa" t.j. ochrana a zpřístupnění.

psohl02.jpg Když začneme mluvit o zpřístupnění, ihned se vynoří otázky co a pro koho zpřístupňovat, v jaké kvalitě a jakými prostředky. Odpovědí na každou z těchto otázek jsou ovlivněny i odpovědi na otázky zbývající. Prvé dvě otázky jsou určeny pro odborné pracovníky knihoven, druhé dvě spíše pro techniky. Při komunikaci mezi těmito dvěma typy lidí je nutno mít stále na mysli, že mají kořeny svého uvažování ve zcela jiném prostředí a že stejná slova mohou mít dosti posunuté významy. Například "častý přístup k datům" představuje pro historika rukopis vyndávaný z trezoru jednou týdně. Budete-li mluvit o rychlosti přístupu k datům, pak technik je ochoten akceptovat několik sekund, jinak je přesvědčen, že v systému je chyba. Badatelé jsou trpělivější. I když se nový systém buduje z nejmodernějších komponent, může rozvaha a přiměřenost významně ovlivnit náklady i morální životnost systému.

Obdobně je tomu i se vznikajícími digitálními daty. Když jsme před lety vydali první disky s obrazy rukopisů, kriteria akceptovatelné kvality stanovili historici z požadavků na čitelnost a rozlišitelnost užitečných detailů. Tyto požadavky vznikly na základě úvah shrnutých dále v odstavci "Co nabízí digitalizovaný obraz badatelům?".

Přečtení a první zobrazení stránky rukopisu z CD-ROM disku na singel-speed mechanice a počítači 386 trvalo asi pět minut, a technici to považovali za nepoužitelné. Totéž dnes trvá na slušném počítači ani ne 10 sekund. Vezmeme-li v úvahu, že digitalizace rukopisů bude v Národní knihovně trvat několik let, kde bude technika až dokončíme digitalizaci jen těch nejvýznamnějších dokumentů. Budou naše data ještě použitelná?

Snažíme se o to, abychom mohli odpovědět, že ano.

  • Co a pro koho zpřístupňovat, v jaké kvalitě a jakými prostředky?
  • Požadavky na kvalitu digitalizace musí určovat uživatelé . . . ale kteří?

Souvislost požadované kvality obrazu s potřebami badatelů.

Badatele v rukopisných odděleních knihoven lze rozdělit v zásadě na dvě skupiny. Větší skupinu tvoří ti, které zajímají informace, které chtěl pisatel čtenářům vědomě předat, ať ve formě textu nebo obrazu. Druhou skupinu tvoří naopak ti, které zajímá rukopis jako celý objekt ve své fyzické podobě.

Co nabízí digitalizovaný obraz badatelům?

psohl03.jpg Jednoduše řečeno, obraz rukopisu je z fyzikálního hlediska nesmírně komprimovanou a zjednodušenou informací určenou jen a jen (a to je velmi důležité) pro naše oči. Převod barvy (reflexních vlastností) originálu do tří čísel úměrných reflektanci ve velmi úzkých pásmech vlnových délek (RGB) je odvozen a přizpůsoben pouze vlastnostem lidského oka. Záznam obrazu obecně představuje ohromnou komprimaci a zanedbání prvotních, v reálu existujících informací.

Celý systém reprodukční techniky je přizpůsoben vlastnostem našich očí, slouží pouze pro zachování a opětné vyvolání subjektivních vjemů oka.

  • Digitální dokument je a vždy zůstane určen pouze pro naše oko.

Diskuse o digitalizaci v takové kvalitě, aby bylo možno alespoň částečně zrekonstruovat originál, vedou v lepším případě jen k opakování diskuse o tom, pro koho má být tato rekonstrukce akceptovatelná. Dle našeho názoru má jít o výjimečné, dobře zdůvodněné akce, rozhodně ne o hromadný cíl. Náš názor na digitalizaci ve extrémním rozlišení zdůvodňovaném potřebami badatelů je skeptický. Badatelů zabývajících se rukopisem jako objektem, pro které mají nejjemnější detaily význam, není mnoho a bez rukopisu se nakonec obvykle stejně neobejdou. Jsou to obvykle špičkoví odborníci, kteří by neměli rukopisu ublížit. S požadovanou kvalitou rostou velmi strmě vynaložené náklady. Zvláště pro staré dokumenty (používané jen výjimečně) platí, že náklady na digitalizaci v extrémní kvalitě klesají v čase mnohem rychleji nežli se zhoršuje jejich stav stárnutím. Z tohoto hlediska může být účelnější investovat spíše do přímé ochrany těchto rukopisů, než do digitalizace.

Jiná situace je u dokumentů často vyhledávaných a používaných badateli, které nezajímá rukopis ani tak jako celý objekt, ale jako zdroj informací. Tito badatelé jsou vlastně v roli čtenáře, který očima přijímá zprávu, kterou mu přes staletí posílá pisatel. Pro tyto badatele není důležité medium nesoucí informaci. Je-li nosným mediem originál (papír, pergamen, papyrus) opotřebovává se, ačkoli stejnou informaci může poskytnout mikrofilm, či obrazovka počítače. Pro tyto badatele pracujeme především.

  • Budou výsledky digitalizace dostatečně využívány a kým?

Vyjděme ze skromného, avšak věřím, že opodstatněného předpokladu, že hlavním cílem naší práce je zpřístupnění obrazu dokumentů, zprostředkování co nejvěrnějších vjemů pro oči. To nám dovolí pochopit jak, proč a pro koho vznikla různá technická doporučení. Možnosti techniky v oblasti digitalizace rostou velmi rychle, ceny zařízení klesají a tento trend se nezastaví, nezastaví-li se naše civilizace. To však neznamená, že je trvale lepší čekat až bude kvalita ještě lepší a ceny ještě nižší. Oko má své hranice možností. Je-li možno pro oko nabídnout srovnatelný vjem z obrazovky a z pohledu na originál, a je-li při tom mnoho badatelů zajímajících se o obsah těchto dokumentů, pak má digitalizace své oprávnění. Srovnatelný vjem se samozřejmě musí lišit díváme-li se na originál a jeho kopii tak jak jej viděl při psaní pisatel, či použijeme-li lupu nebo mikroskop. Používat však digitalizaci místo mikroskopu je nehospodárné a těžko obhajitelné. Zpřístupnit digitalizací dokonalý pohled na rukopis je však možné a účelné už dnes. Tyto úvahy byly základem pro zahájení rutinní digitalizace rukopisů v Národní knihovně, kterou zajišťuje naše firma, jak již bylo řečeno, třetí rok.

Cíle digitalizace

Nadčasový význam digitalizace vidíme ve vzniku nestárnoucích digitálních dat. Nesnažíme se o vznik nových prací o dokumentech, odborných publikacích, celých produktů, t.j. například CD-ROM disků včetně SW. Vytváříme data - obrazy originálů - určené k použití místo originálu pro co nejvíce badatelů. Ke zpřístupnění obrazů je ale pochopitelně třeba jejich identifikace a také programy k práci s těmito digitálními daty. Při rychlosti vývoje HW i SW je to závažný problém, zvláště předpokládáme-li, že vznikající obrazová i textová data mají být použitelná skromně řečeno "dlouho". Orientace na SGML a HTML však toto nebezpečí mění ve výhodu. Promyšlená struktura vznikajících dat dovoluje neustále využívat nejmodernějšími prostředky pro již dříve vzniklé digitální dokumenty. Velmi závažná otázka je tedy i forma, ve které digitální dokumenty vznikají. Záhy jsme začali uvažovat, jak data ukládat maximálně nezávisle na jakémkoli firemním SW, nezávisle na komerčních zájmech počítačových firem. Již před třemi lety jsme vsadili na rozšíření Internetu a nezvratnost základů na kterých je postaven. Vytvořili jsme konvence, jak pořizovat kopie digitálních dokumentů v HTML. Tato metodika byla předložena k posouzení Technické subkomisi projektu Paměť světa. Na základě následné diskuse jsme metodiku dále zobecnili a především jsme doplnili definici v SGML. Tím je náš projekt od počátku plně v souhlase s aktuálními doporučeními využívat v této oblasti SGML. Hlavní informace můžete najít na stránkách NKČR

                                                http://digit.nkp.cz/

Základní informace o používané technice.

psohl04.jpg Používáme kameru Kodak DCS 460m s RGB filtry, využívající bleskové osvětlením. Princip kamery dovolil zavést exaktní metody optimálního nastavení a kalibrace vznikajícího obrazu. Počítačem řídíme velmi přesně a reprodukovatelně intenzitu i barevnost osvětlení. Celý systém pak zaručuje vynikající reprodukovatelnost výsledků nezávisle na variacích osvětlení. Kamera KODAK DCS 460m dovoluje pořídit obraz cca 2000x3000 bodů ve 12 bitech pro barvu. S tímto rozlišením snímáme, po první úpravě obrazu pracujeme jen s 8 bity (t.j.18Mbytů, RGB). Tím je dáno maximální rozlišení, které je obvykle mezi 250 a 350 dpi. Rozlišení psohl05.jpg05.jpg přizpůsobujeme velikosti a typu rukopisu a udržujeme ho v rámci rukopisu konstantní. Originální obrazy (EXCELENT) obrazy následně konvertujeme do dalších kvalitativních hladin, lišícím se určením (HIGHT,LOW,PREVIEW,GALERY). S každým digitalizovaným rukopisem ukládáme i digitalizovaný obrázek kalibrační tabulky doplněný tabulkou s výsledky exaktní spektrální analýzy odrazivosti za definovaných podmínek. Tyto informace jsou uloženy ke každému digitálnímu dokumentu. To umožní kdykoli v budoucnosti vytvořit podobnou tabulku nebo vypočítat korekce podle jiné tabulky změřené stejnou metodikou a optimálně nastavit reprodukční zařízení (tiskárna, obrazovka). Nyní jsme zprovoznili pracoviště s kamerovým scannerem BetterLight 6000 s rozlišením cca 6000x9000 bodů. To dovoluje digitalizovat i velmi rozměrné dokumenty s mnoha detaily ve vynikající kvalitě. Je to dobrý příklad jak s novější technikou lze za srovnatelné náklady pracovat ve stejné kvalitě rychleji a levněji nebo ve vyšší kvalitě.

Toto nové pracoviště je mobilní a bylo již využito v MZK v Brně, ve Státním archivu v Jihlavě, v VK Olomouci a do konce roku 1998 ještě navštíví Národní muzeum v Praze.

Stručně o metodice přípravy doprovodných dat

psohl06.jpg V rámci projektu výzkumu a vývoje "Zpřístupnění a archivace vzácných dokumentů s využitím digitální technologie" dotovaného MKČR byl vytvořen systém přípravy dat a kompletace digitálních dokumentů, dovolující odborným pracovníkům bez větší průpravy a znalostí počítačů připravit data popisující a identifikující historický dokument.

psohl07.jpg První program GenTEMP generuje dle známých vlastností popisovaného dokumentu textová soubor, který je vlastně formulářem, který odborník vyplní v libovolném (svém oblíbeném) editoru.

Program GenHTML z takto připravených dat generují zjednodušeně řečeno WWW stránku zpřístupňující tento dokument. Zdigitalizované obrazy se ukládají na CD-R disky spolu s HTML soubory do jednoduché adresářové struktury. Na disku jsou samozřejmě uchovány ještě další informace, kromě identifikace a kalibračních informací i identifikační soubor UNIMARC.

psohl08.jpg Dokumenty takto vytvořené mají svoji definici vytvořenou v SGML , jsou však interpretovatelné v libovolném prohlížeči HTML souborů, libovolným WWW prohlížečem.

Tatáž data jsou přímo zveřejnitelná ve zvolené kvalitě na Internetu. Systém je založen na úzké vazbě na Internet, nezávisí na produktech konkrétních firem a je tedy komerčně nezávislý. Těší nás, že námi rutinně používaná metodika využití SGML je v plném souladu s nově publikovanými doporučeními v tomto oboru.

Současný stav považujeme za na tolik hotový a životaschopný, že v ČR oslovujeme spolu s NK další knihovny s cílem poskytnout jim možnost využít dosažených výsledků. Podrobné informace i ukázky souvisejících programových prostředků (freeware) pro tuto práci jsou shrnuty na CD-ROM, který vážným zájemcům poskytneme na požádání,a jehož další verze vyjde v krátké době.

  • Používaná metodika je velmi snadno akceptovatelná pro odborníky spolupracující na přípravě digitálních dokumentů.
  • Vznikající digitální dokumenty jsou definovány v SGML.

psohl09.jpg psohl10.jpg psohl11.jpg
Stejný digitální dokument, jak ho zobrazuje EXPLORER a MANUFRET

Internet

Internetovské browsery tedy mohou být prostředkem pro přístup k našim digitálním dokumentům, nyní ukládaným na CD-R. Internet je však i nástrojem ke snadnému přístupu k základním informacím o digitalizovaných dokumentech.

Nadstavbou těchto jednotlivých dokumentů je databázový systém evidující digitalizované rukopisy. Dovoluje po Internetu získat informace o tom, co je již přístupno v této formě.

Tento automatizovaný systém katalogového charakteru je již k dispozici na serveru NKČR. Umožní zpřístupnění digitálních dokumentů v přiměřené kvalitě po Internetu. Tím Internet poskytne své specifické informační služby vedle náročnějšího zpřístupnění pomocí CD-ROM.

ManuFret

Browsery jsou snadno dostupným prostředkem, nicméně v současnosti ještě postrádají mnohé funkce, které by badatel uvítal. Proto jsme vyvinuli program, který dostal jméno ManuFRET. Tento program je schopen přečíst HTML popis rukopisu, zindexovat jej a zobrazovat ve formě virtuální knihy, ve které lze efektivně listovat, vyhledávat, označovat, psát si poznámky. Program dovoluje nahlížet současně do více stránek, měnit měřítko, při práci se zvětšeným obrazem používat orientační náhled, pracovat s jasem a kontrastem.

  • Digitální dokumenty mohou nezávislé na vývoji SW a HW.
  • I pro "staré" digitální dokumenty lze využívat vymožeností nejmodernějších programů.
  • Lze se soustředit na tvorbu digitálních dokumentů.

Pomocné prostředky pro manipulaci s dokumenty

psohl12.jpg Pro digitalizaci jsme vyvinuli i přípravky pro šetrnou fixaci rukopisů, vytvořili jsme velkoplošný fixační stůl, který jsme použili pro snímání starých psohl13.jpg velkoplošných dokumentů, například univerzitních thezí a vzácných plakátů ze sbírky národního filmového archivu.

  • Historické dokumenty vyžadují individuální přístup

CD-ROM v digitálním archivu

psohl14.jpg Velké množství digitálních dat, které je produkováno při digitalizaci si vynucuje zabývat se dlouhodobým uchováním a bezpečností těchto dat. To jsme v NKČR, byť ve skromném rozsahu, již učinili. Musí být zajištěna potřebná životnost digitálních dokumentů. Velmi závažná je otázka vhodného archivačního media.

Při digitální archivaci v NKČR jsme se rozhodli z mnoha důvodů pro CD-ROM. Protože máme zajištěnu možnost měřit spolehlivost a rezervu uchování digitální informace na CD-ROM disku, můžeme zajistit prakticky 100% jistotu trvalého uchování digitálních dat.

  • CD-R je vhodné medium, je-li zajištěna kvalita a kontrola.

Prosíme vážné zájemce o tuto problematiku, ozvěte se na adresu:

Albertina icome Praha s.r.o., U stadionu 157, 266 01 Beroun, Česká republika
e-mail: digitstorageaip.cz

Aktualizováno: 03.09.2008
Redaktor: správce www stránek
Pošli e-mailem
Trvalý odkaz


Vědecká knihovna Olomouc, ­ ­­­­­­­ ­Bezručova 659/2 ­Olomouc 9, 779 11­­­ tel.  +420-585 205 300 e-mail: vkol@vkol.cz   Otevírací doba: Prázdninová otevírací doba ID datové schránky­­: yswjrie
Vědecká knihovna v Olomouci je příspěvkovou organizací zřízenou a financovanou Olomouckým krajem
Tvorba www stránek © Winternet 2008 - 2018
Aktualizováno: 17.08.2018 13:19
TOPlist