Digital dokumentutveksling:
tekniske utfordringer
Håkon Wium Lie
howcome@opera.com
NFF, 30 okt 2002

Rosetta-stenen

- funnet i 1799 i Rosetta (Rashid), Egypt
- gjennombrudd for tydning av hieroglyfer
- hieroglyfer, demotisk, gresk
- kan sees i British Museum
Problemer
- ukjente format må dekodes
- informasjon mistes ved konvertering
- bilder blir borte
- æåø forsvinner
- tekstens roller fjernes
- forskjellige versjoner av samme format
- hvem kan lese Word 1.0-filer?
- fysiske lagringsmedia uleselige
- hvem kan lese myke disketter?
- konvertering er ofte envegs-prosess
Hva er et dokumentformat?
- tegnsett
- syntaks
- struktur
- semantikk
- presentasjon
- abstraksjonsnivå
Hva er et dokumentformat?
- tegnsett: ISO 8859-1, Unicode
- syntaks: XML
- struktur
- semantikk
- presentasjon
- abstraksjonsnivå
Abstraksjonsnivåer i dokumentformat
Faks
- egentlig ikket et dokumentformat
- faksmaskinen tar et bilde av dokumentet
- umulig å søke eller editere i "dokumentet"
DOC
- Microsoft Word sitt format for editering
- lukket format
- binært format
- dekoding vanskelig
- Microsoft Word ikke tilgjengelig på Linux
PDF
- Adobe sitt format for publisering
- lesere tilgjengelig på flere platformer
- andre implementasjoner finnes
- spesifikasjon tilgjengelig, åpent nok?
- Adobe kontrollerer utviklingen
- ikke egnet for editering
- men kanskje for arkivering?
- PDF mangler struktur
HTML
- hovedformat på vebben
- 2.095.568.809 vebb-sider, flesteparten HTML
- kulturbærer: vil kunne leses om 50 år
- kan leses av millioner av nettlesere
- kan vises på skjerm, skriver, tale
- åpent format, men få følger standarden
- "vær konservativ ved utsendelse, åpen ved mottak"
- vil XHTML rydde opp?
HTML m/venner
- HTML brukes sammen med:
- bilder: GIF, JPEG, PNG
- stilsett: CSS
- programmer: Java, JavaScript
- multimedia: Flash
- HTML-profiler må utarbeides
XML
- er en syntaks, ikke et format
- mer som ASCII enn som PDF
- del av en løsning, men ikke hele løsningen
- brukes til å lage formater
- MathML
- XHTML
- OpenOffice
- Office11
MS-XML
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:p="urn:schemas-microsoft-com:office:powerpoint"
xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=PowerPoint.Slide>
<meta name=Generator content="Microsoft PowerPoint 9">
<link rel=File-List href="./ppt-filer/filelist.xml">
<link rel=Preview href="./ppt-filer/preview.wmf">
<link rel=Edit-Time-Data href="./ppt-filer/editdata.mso">
<link rel=OLE-Object-Data href="./ppt-filer/oledata.mso">
<title>Dette er en test</title>
<!--[if gte mso 9]><xml>
<o:DocumentProperties>
<o:Author>xxxxxxx</o:Author>
<o:LastAuthor>xxxxxxxx</o:LastAuthor>
<o:Revision>2</o:Revision>
<o:TotalTime>1</o:TotalTime>
<o:Created>2001-03-29T09:28:16Z</o:Created>
<o:LastSaved>2001-03-29T09:29:49Z</o:LastSaved>
<o:Words>4</o:Words>
<o:PresentationFormat>Skjermfremvisning</o:PresentationFormat>
<o:Paragraphs>1</o:Paragraphs>
<o:Slides>1</o:Slides>
<o:Version>9.2812</o:Version>
</o:DocumentProperties>
<o:OfficeDocumentSettings>
<o:PixelsPerInch>80</o:PixelsPerInch>
</o:OfficeDocumentSettings>
</xml><![endif]-->
...
Åpne formater
- åpne standarder kan misbrukes av produsenter
- åpne standarder blir ofte kompliserte
- åpne standarder kan torpederes av patenter
- åpne standarder kan hemme utvikling
- pragmatisme nødvendig
- likevel bedre enn lukkede standarder
Infosoc
- EU-direktiv
on the harmonisation of certain aspects of
copyright and related rights in the information society
- gjør det ulovlig å åpne lukkede formater
- DVD er et lukket format
- Jon Johansen var med på å dekode formatet for avspilling
- Økokrim har reist sak
- Infosoc virker skrevet for å kriminalisere Jon
- konflikt med bestemmelse om "reverse engineering"
- Jon i dag, Opera i morgen?
Oppsummering
- utvekslig bør foregå i åpne formater
- konvertering mellom formater er vanskelig
- XML er en del av framtidig løsninger
- ... men kan også misbrukes til å lage lukkede formater
- HTML vil leve lenge... bruk det riktig!
- PDF kan brukes for arkivering
|
Faks |
PDF |
.DOC |
HTML |
XML |
medie-uavhengig? |
nei |
nei |
nei |
ja |
ukjent |
roller kjente? |
nei |
nei |
nei? |
ja |
ukjent |
skalerbar? editerbar? |
nei |
nei |
ja |
ja |
ukjent |
tekst i logisk rekkefølge? |
- |
nei |
ja |
ja |
ukjent |
tekst tilgjengelig? |
nei |
ja |
ja |
ja |
ja |