Traffic analysis

Vědecká knihovna Olomouc
Vědecká knihovna Olomouc
Česky English Deutsch

DOBRÁ ZPRÁVA - KONCEPCE ZŮSTÁVÁ

Pozvánka na konferenci, velikost 34 kB.

8. ročník odborné konference (20. - 21. října 1999)
Problematika historických a vzácných knižních fondů Čech, Moravy a Slezska

DOBRÁ ZPRÁVA - KONCEPCE ZŮSTÁVÁ

Stanislav Psohlavec

Digitalizace vzácných dokumentů NK ČR a Albertina icome Praha s.r.o. v roce 1999.

Byl jsem upomenut, že jsem neposlal příspěvek do sborníku. Zapomněl jsem, a tak mi zatrnulo, zda si vzpomenu, co jsem v Olomouci řekl nového. Pak jsem si uvědomil, že základ a principy toho, co již čtvrtý rok prosazujeme, se nemění a že to je vlastně ta nejlepší zpráva.

Příspěvek je tedy zopakováním a hlubším vysvětlením neměnných principů tohoto projektu. Tedy stručně, jak jsme k této stabilitě dospěli:

1992    první kontrakt s UNESCO, zhotovení CD-ROM
        s digitalizovanými ukázkami,  1. vydání 1. CD-ROM v programu 
        UNESCO Paměť světa - tzv. Pražský projekt
        Období pochybností  -  hledání, na čem postavit nadčasovost.

1996    společné zasedání Subkomise pro technologii programu Paměť světa a
        souvisejících evropských programů v Praze (Národní knihovna ČR)
        první verze pravidel tvorby obecných digitálních dokumentů
        školení UNESCO pro odborníky ze zemí střední a východní Evropy v Praze (NK)

1997    projekt výzkumu a vývoje, upgrade technického vybavení,  rutinní aplikace metodiky,
        http://digit.nkp.cz/search.htm
        (http://digit.nkp.cz/search.htm)

1998    rutinní digitalizace, druhá provozní digitalizační linka
        publikování konečné verze obecné metodiky tvorby digitálních dokumentů (DOBM)
        a její přijetí jako standardu programu "Paměť světa" UNESCO

Toto je vnější popis posledních let. Pokusím se o abstraktnější analýzu a obecnější vysvětlení a zdůvodnění dosaženého úspěchu. V době pochybností jsme začali tušit rozpor mezi neustálým vývojem novorozeného počítačového prostředí a evidentní potřebou nadčasovosti vznikajících digitálních produktů. Úvahy byly samozřejmě spíše tápáním za tušeným cílem a zároveň odmítáním komerčního vnucování typu "naše baterie vydrží až 7x déle než běžné baterie" nebo "vybělená špína je nejčistší". Věděli jsme, že konečné řešení nelze očekávat ani od geniálního vynálezu ohlášeného na příští rok a také ne od firem příliš halasně prosazujících svou jedinečnost, zdůrazňujících svou neomylnost a hlavně přicházejících každoročně s novým tvrzením, že teď už to bude konečně na věčné časy ono. Pokusím se teoreticky naznačit, na čem závisí morální životnost produktu v počítačovém prostředí a co z toho plyne pro nás.
Vás, kteří nemáte rádi matematickou logiku, prosím, přeskočte následující řádky na "Překlad do lidštiny ".

Vy ostatní mi zase promiňte extrémní zjednodušení vedoucí až k elementárnosti. Jedině tak lze popsat jevy jinak těžko pojmenovatelné a rozpoznatelné v nekonečně složitější realitě.


Definice modelu:

  • Počítačové prostředí má stálé vlastnosti (SV) a proměnné vlastnosti (PV n) platné v n-tém období.
  • PVn jsou definovány pomocí SV, PV n-1(předchozího období) a aktuálních nových vlastností (NV n)
    (NV často představuje i ztrátu nebo úmyslné odstranění starších nežádoucích vlastností)
  • NVn v každém dalším období způsobuje, že PV n-k je v rozporu s PV n ,
    ( "k" tedy vyjadřuje omezenou zpětnou kompatibilitu).
  • Dokument (D) je množina informací vytvořená výhradně pomocí SV.
  • Dokument (D n) je množina informací vytvořená pomocí SV a PV n
  • Zobrazovač (Z n) je prostředek, který interpretuje pomocí SV a PV n dokument D nebo D n.
Věty vyplývající:
  1. Dn lze interpretovat pouze pomocí Z  n, Z  n+1 ... Z  n+k-1.
  2. D lze interpretovat pomocí všech Z bez omezení

Překlad do lidštiny

Z první věty vyplývá, že pokud využiji všech proměnlivých vlastností nějakého formátu a můj dokument se stane závislý na proměnných vlastnostech počítačového prostředí, jsem vazalem subjektů nabízejících prostředky zpřístupnění, které se měnili, mění a měnit budou. Mnoha rozumnými důvody mohu být nucen k aktualizaci používaných programů. Mám-li ale data založena na proměnných vlastnostech, mohu být nucen ke stagnaci na starších programech dovolujících ještě s těmito daty pracovat, nebo budu nucen konvertovat data tak, aby se jejich vlastnosti přizpůsobily modernímu programu.

Naopak, pracuji-li s dokumentem postaveným jen na neměnných vlastnostech dokumentu, jsem nezávislý na vývoji programů. Mohu sice pro dokumenty používat nové programy, ale nejsem v tomto směru nijak nucen.

Co myslím pod slovy pevné vlastnosti nebo nebezpečné proměnné vlastnosti a co z toho vyplývá?
(zkratka pro chvátající: práce s dokumenty, PC nebo MAC, Pevné vlastnosti, Proměnné vlastnosti, Tvorba SGML dokumentů, DOBM, Závěr)

Zmínil jsem se už o novorozeném počítačovém prostředí. Ten příměr se mi líbí. Vyjadřuje na jednu stranu dosud netušené možnosti, lačnost jejich uchopování, rychlý vývoj. Na druhou stranu je úspěšné narození určité definitivum, nelze jednoduše změnit DNA, principy vidění, slyšení, počet končetin. Narození tedy v sobě obsahuje stále vlastnosti i možnosti nekonečného vývoje.

Pevné vlastnosti

Uvažujeme-li o knihách, je základem pro úvahy samozřejmě řeč a tedy způsob jak ji zakódovat do znaků. V případě obrazu je to složitější - kódují se informace, které později dovolí vygenerovat podobné fyziologické vjemy jako při pohledu na originál.

Kódování písma je již stabilizováno, počet kódů je sice úctyhodný, ale na mezinárodní úrovni se jich používá jen několik a lze je brát za konstanty. Z nich jsou tvořeny textové dokumenty. Prosté textové dokumenty ale nedovolují uchovat informace o vlastnostech a případně o významu textu nebo jeho částí. Tyto informace lze zapsat samozřejmě přímo do textu komentářem nebo určitými konvencemi, které dovolují přímo dle "komentářů" (tagů) zacházet s ostatním textem. Existuje mnoho těchto konvencí. V podstatě všechny soubory určené pro textové editory patří do této kategorie. Co si ale vybrat, co lze považovat za konstantní, čemu věřit do budoucnosti?

Nejsme samozřejmě sami, kdo si uvědomuje akutní potřebu jistot, o které se lze opřít. Naše cesta tedy nebyla rozhodně ve vytváření nových principů, ale v pečlivém hledání a rozpoznání možností i nebezpečí. Naše cesta vedla přes prověřování HTML až k dokumentům definovaným pomocí SGML (nebudu obtěžovat detaily ... je to norma vzniklá prvotně s cílem definovat zcela obecně "co je co" v digitálním dokumentu. Je využita k definice HTML i XML , je uznávána jako konstanta bez jakýchkoli komerčních vazeb).

Pevné vlastnosti ve smyslu našich potřeb dokument definovaný pomocí SGML rozhodně má.

Anarchie nebo kázeň v rámci SGML

Obecnost a volnost dokumentů definovaných v SGML je bezbřehá. Velká svoboda ale snadno vede k velké anarchii. Hned od počátku jsme se bránili dětskému okouzlení z možností SGML dokumentů. Stanovili jsme si omezení, která nejsou "novými vlastnostmi" ve smyslu výše uvedené definice, ale naopak jsou ukázněným vzdáním se určité míry svobody ve prospěch prohloubení obecnosti a užitečnosti..

Prvním krokem bylo uznání, že je užitečné akceptovat množinu vlastností představovaných HTML. Tím pro většinu využívání těchto dokumentů odpadá starost se zobrazovačem (práce s dokumenty).

Druhým významným ústupkem bylo vědomé opuštění svobody v tvorbě dokumentu. Pro SGML dokumenty o rukopisech a knihách jsme zavedli na základě doporučení historiků konvence nazvané DOBM (digitisation old book materials), které doporučují, jak mají být v SGML dokumentu rozpoznávány významné informace (signatura, majitel, místo uložení...rozpis obsahu..).

DOBM

K čemu toto DOBM doporučení je? SGML dokument poskytuje naprostou svobodu ve struktuře. Vzdáme-li se určité míry svobody tím, že akceptujeme HTML konvence, je možno tyto dokumenty prohlížet současnými i budoucími WWW prohlížeči. Podobně, pokud se shodneme, že všechny rukopisy mají společnou množinu informací , pak je vhodné přijmout jednotící pravidla, jak rozpoznat v textu "co je co" (o tom je SGML). Tato dohoda nijak neomezuje možnost použít navíc i jiná označení. Omezení plynoucí z této dohody jsou minimální, výhody nedozírné. Takovéto SGML dokumenty pak představují společně sdílitelný rezervoár informací, který je nadčasový.

Tvorba SGML dokumentů

Kázeň při tvorbě SGML dokumentů, kterou představuje např. DOBM dovoluje zjednodušit a zautomatizovat tvorbu SGML dokumentů. Podívá-li se humanisticky vzdělaný člověk na text napsaný pomocí SGML s představou, že jej má vytvořit, asi na něj přijde deprese. Pokud se historik chce soustředit na odbornou stránku, je vhodné použít prostředky pro jejich automatizovanou tvorbu. Tyto prostředky již více než tři roky používáme v našem projektu. Jeden program vygeneruje dle zadaných vlastností rukopisu základní textový dokument, který představuje vlastně prázdný formulář. Odborník v libovolném editoru vyplní tento formulář potřebnými informacemi. Další program pak tento formulář přemění v sestavu SGML dokumentů. Pro zajímavost se můžete podívat, co tyto textové dokumenty obsahují a jak jsou tvořeny. Uvidíte, že jsou čitelné a logické, ale vyjadřovat se v tomto stylu není příliš pohodlné.

Práce s dokumenty

Svou veřejně přístupnou, standardizovanou a všeobecně mezinárodně akceptovanou formou dovoluje takto vytvořený SGML dokument současně trvalý přístup k informacím i využívání nejmodernějších prostředků zpracování dat bez škody z toho, že tyto prostředky jistě zestárnou a budou nahrazeny novými. Naopak, tatáž data lze zpracovávat stále novými prostředky, příjemněji. Když jsme zavedli tuto metodu, bylo možno naše dokumenty zobrazit každým WWW prohlížečem a naším prohlížečem ManuFret, který z dokumentu udělal elektronickou knihu. V současnosti jsme hrdi na plugIn do prohlížeče, který dovoluje velmi jednoduchou a přitom efektivní práci s obrazem doposud vyhrazenou speciálním programům typu Photoshop. Připravujeme nové prostředky, protože prostředky obecně dostupné dosud nemohou zcela pokrýt požadavky badatelů. V budoucnu tento vývoj může zcela soustředit opravdu jen na splnění mimořádných požadavků, pokud bude vůbec nutný.

Stále se objevují lepší browsery, lepší textové editory. Zkuste si pro zajímavost otevřít naše dokumenty v editorech čtyři roky starých a pak například ve Wordu 97 - bude asi překvapeni. Dalo by se to interpretovat tak, že Microsoft pomalu dorůstá naše dokumenty, ale pravda je prostší - zdá se, že již před lety jsme zvolili správnou, dostatečně obecnou formu a komerční produkty svým vývojem akceptují a potvrzují tuto formu jako jednotící trend. Přesto tento jev vnímám jako sice příjemné, ale vedlejší potvrzení správnosti této koncepce.

PC nebo MAC

Stejně jako je náš dokument nezávislý na konkrétním WWW prohlížeči nebo editoru, je nezávislý i na hardwarové platformě. Tentýž dokument je stejně použitelný na PC nebo na MAC.

Proměnné vlastnosti

Za proměnné vlastnosti dokumentu je nutno pokládat všechny vlastnosti závislé na jediném výrobci programů nebo techniky. Tyto vlastnosti mohou být zajímavé i výhodné, bývají v okamžiku uvedení na trh předkládány jako revoluční a jedinečné, což bývá v různé míře pravda. Z dlouhodobého hlediska jsou vždy rizikem. Příkladem jsou nepřeberné verze textových formátů pro různé editory, které zvláště na počátku vývoje spontánně vznikaly a zanikaly, a které při svém uvedení vždy znamenaly kvalitativní přínos. (příklad: editor T602, obdivuji s úctou, ale je to ryze český formát svázaný s konkrétním českým produktem...). Je-li formát "majetkem" jediné firmy, má tato firma samozřejmě právo na změnu a o tom jestli je vhodné ji provést, rozhoduje především ekonomická efektivita takového kroku. Mnohdy je tento přístup správný a pro uživatele výhodný, protože rozšíření definice formátu umožňuje práci s dalšími verzemi programu. Typickým příkladem jsou firemní formáty progrmů PHOTOSHOP, COREL, stejnou snahu vidíme i u formátu DOC. Formáty připouštějící takovýto vývoj jsou však zásadně nevhodné pro dlouhodobé uchování dat. Znamenaly by totiž i dlouhodobé uchování verzí programů a časem pravděpodobně i hardware.

Zavádějící může být i naděje, že kvantita přeroste v kvalitu. (DOC soubor dokáže stále ještě neuvěřitelné věci, o jeho zpětné kompatibilitě nemluvě). Nic neznamená i zdánlivá zcela jednoznačná dominance jednoho výrobce SW ( některým dominujícím firmám pravděpodobně nejsou příjemná slova jako UNIX, LINUX...).

Struktura dokumentů SGML je z tohoto hlediska zcela "čistá" a tedy nadčasová. Existuje veřejně přístupná, na nikom nezávislá definice.

V oblasti zvuku a obrazu je situace pochopitelně mnohem složitější. Bezproblémovou jistotou uznanou i v archivnictví je nekomprimovaný formát TIFF, který ale pro praktické využívání není efektivní. Z uživatelského hlediska je vhodné používat komprimované formáty. Při rozhodování co použít je ale nutno pečlivě zohledňovat rozsah rozšíření a to nejen jeho okamžitou amplitudu, ale celou dynamiku a hloubku zastoupeni formátu v technickém světě (viz Trocha technických úvah).

Praktické výsledky

Program digitálního zpřístupnění vzácných dokumentů Memoriae Mundi Series Bohemica , vede Národní knihovna ČR společně a firmou Albertina icome Praha s.r.o. Vzniklý systém produkcí dostatečného množství použitelných dat přivodil vznik nového informačního prostředí. Metodika tvorby digitálních dokumentů byla přijata v r. 1999 jako mezinárodní doporučení UNESCO pro projekt "Paměť světa".

Je řešena i problematika životnosti využívaných záznamových médií (hlavně CD a CD-R) z hlediska dlouhodobého uchování digitálních dat. Teoretické základy se aplikují v rutinním digitalizování významných rukopisů v Národní knihovně (přístupno více než 400 významných rukopisů). Projekt se nyní s podporou ministerstva kultury rozvíjí i v Národním muzeu, ve Státní vědecké knihovně Olomouc a dalších knihovnách a archivech. Je již realizováno osm větších projektů mimo Prahu.

Významné množství těchto dokumentů, zvláště v ucelených tématických celcích , přináší novou kvalitu - nové informační prostředí. Lze pozorovat významný nárůst využívání těchto digitalizovaných dokumentů. Větší množství dat vede k rozpoznávání významu a hlavně role digitálního dokumentu.

Produkujeme digitální kopie analogových originálů, nové objekty - nové dokumenty, jejichž komunikace s uživatelem je zásadně odlišná od originálu, ale snaží se komunikovat totéž sdělení. Z přístupňujeme myšlenky originálních dokumentů tím, že současnými technickými prostředky zprostředkujeme badateli podobné vjemy jako poskytuje pohled na originál. V principu uchováváme ideje stejně, jako to činily nové kopie zhotovené středověkými písaři nebo jako nové edice téhož díla v současné době. Vědomě tedy již nemluvíme o náhradních dokumentech, ale říkáme NOVÉ DOKUMENTY.

V odůvodněných případech jsou vytvářeny i podrobné popisy, prvotní cíl je však zpřístupnění obrazu originálu.

Heslovitě:

Technické vybavení a jeho využití

Špičkové výsledky a efektivita - spojení vysoké odbornosti obsluhy a technického zázemí, intenzivní využívání (více směn), sdílení technických prostředků pro více projektů. Neexistuje špičkový historik, který by byl současně špičkový technik a naopak - potřeba zřetelného rozdělení odborné a technické stránky projektu, zároveň však nutnost intenzivní komunikace a oboustranné důvěry.

Systém řízení výroby je nezbytný - plánování výroby, optimalizace toků dat, paralelní příprava doprovodných dat, sledování a minimalizace rozpracovanosti,...
Bezpečnost a životnost digitálních dat, skladování, poskytování kopií a tisků - systém ukládání digitálních dokumentů, efektivně zpřístupňující tato uložená data uživatelům formou kompletních kopií, výběrů, digitálních souborů i výtisků.

Návaznosti na Internet a utomatizované zpřístupňování základních (volitelných) informací o dosažitelných dokumentech.

Autorské a vlastnické vztahy k vznikajícím dokumentům - maximální respektování partnerů, jasné smluvní vztahy.

Cíle

Zvýšit nezbytnou dostupnost k idejím.

Zpřístupnit tyto ideje jako takové, bez přidávání nových idejí a názorů.

Přidávat nové hodnoty k takto zprostředkovaným idejím

  • nabídnutím lepších nástrojů pro zpřístupnění dat a pro práci s nimi.
  • nabídnutím nástrojů na publikování kritických edic.

Vytvořit a formovat nové informační prostředí v digitálním světě.

Využít specifických vlastností tohoto prostředí k novým objevům a obohacení lidského poznání.

Rozsah digitálních dat a efektivita jejich zpřístupňování

Na produkci digitálních dat musí navazovat prostředky k jejich využívání.

Zpřístupňování v badatelně přináší při malém počtu digitalizovaných dokumentů relativně vysoké náklady a obvykle malé využití. Z toho plyne nízká relativní efektivita. Proto je tento přístup účelný jen výjimečně, je-li přínosem především ochrana a zpřístupnění mimořádného, často vyhledávaného dokumentu.

Zpřístupňování základních informací na Internetu může způsobit zvýšený zájem o originál, proto musí být nejprve akceptovatelně (pro poskytovatele i pro zájemce) vyřešeno zpřístupnění nebo poskytování kopií.

Teprve určité významné množství digitálních dokumentů spolu s prostředky pro jejich zpřístupnění přináší vznik nového informačního prostředí. To pak teprve vede k dostatečnému využívání technických prostředků a naplňování cílů.

Závěr

Vzniklý systém produkcí dostatečného množství použitelných dat přivodil vznik nového informačního prostředí. Metodika tvorby digitálních dokumentů byla přijata v r. 1999 jako mezinárodní doporučení UNESCO pro projekt "Paměť světa". Projekt svým rozsahem a koncepcí ukazuje širokou použitelnost výsledků a jejich nadčasovost. Jsou vytvořeny a používány účinné prostředky pro jednoduché generování SGML dokumentů, použitelné principy jsou veřejně přístupné. Jsou veřejně přístupné zásady dovolující nejrůznějším subjektům tvořit samostatně SGML dokumenty vzájemně velmi efektivně sdílitelné. Projekt řeší i zpřístupňování na Internetu a bezpečnou archivaci vznikajících dat. Roste počet spolupracujících partnerů, využívání výsledků, mezinárodní povědomí. Jsou poskytovány služby za definovaných podmínek a odpovědností, s jasnými vztahy k autorským a vlastnickým právům partnerů.

Kontakty: adolf.knollnkp.cz, stanislav.psohlavecaip.cz



Trocha technických úvah

Použití obrazového formátu JPG pro uchování obrazu zdůvodňujeme takto:

Je hojně používaný na Internetu, rozšiřuje se v komerční sféře (digitální foto), všechny významné produkty jej podporují, a dovolují konverzi na jiné formáty. Tento formát, zdá se, nikomu nevadí.

Formáty vázané na konkrétní firmu a technologii mají obvykle krátkou morální životnost. Proto asi už nebude světovým standardem PhotoCD, ani systém AT ve fotografii, obojí již převálcovává amatérské digitální foto.....

Další skutečností je, že velmi rozšířený produkt nebo formát bývá nahrazen teprve něčím, co přinese něco opravdu kvalitativně nového, co opravdu chybí podstatné většině průměrných spotřebitelů nebo co dokážou ocenit. Příklad: Video systém 2000 se neprosadil proti VHS, ač se všichni technici shodují na tom, že ještě nyní by byl lepší. Přišel pozdě a rozdíl pro většinu uživatelů nebyl opravdu důležitý. Důležitější bylo, co lze na kazetách VHS koupit, kolik stojí VHS videorekordér... Ze stejných důvodů si dovolím říci, že CD je velmi stabilní medium , protože existují rozšířené, drahé a mohutné výrobní kapacity, je stlačena výrobní cena na minimum (nesouvisí s cenou na trhu) a významná konkurence? Minidisk... dražší, není srovnatelná nabídka hotových titulů a co přináší OPRAVDU nového - kvalitní digitální záznam, ale to je zajímavé jen pro profesionály. Většině, která určuje efektivitu vývoje, stačí pro vlastní nahrávky do auta nebo do wolkmena CC-kazeta. Proto prakticky ihned zanikla digitální kazeta od f.Philips a R-DAT kazeta zůstala doménou profíků. DVD... uvidíme, ale i zde jsou pochybnosti a spíš se zdá, že bude existovat hlavně pro video a hry paralelně s CD.

CD ale překoná určitě záznam v pevné paměti . Výhody jsou evidentní - žádná mechanika a výhody všech digitálních nosičů. Rozhodující bude CENA. Dojde-li k poklesu ceny paměťových čipů kapacity řádově stovek MB na ceny blízké výrobní ceně CD, lze očekávat boj o ovládnutí světového trhu.

Nutno si uvědomit jak zásadně ovlivňuje vývoj techniky politika (kosmický a vojenský výzkum) a komerční sféra (téměř vše ostatní), narozdíl od přání techniků a nebo například knihovníků.

­

Aktualizováno: 30.08.2008
Redaktor: správce www stránek
Pošli e-mailem
Trvalý odkaz


Vědecká knihovna Olomouc, ­ ­­­­­­­ ­Bezručova 659/2 ­Olomouc 9, 779 11­­­ tel.  +420-585 205 300 e-mail: vkol@vkol.cz   Otevírací doba: Prázdninová otevírací doba ID datové schránky­­: yswjrie
Vědecká knihovna v Olomouci je příspěvkovou organizací zřízenou a financovanou Olomouckým krajem
Tvorba www stránek © Winternet 2008 - 2018
Aktualizováno: 21.08.2018 07:37
TOPlist