OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“...
Transcript of OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“...
SVEUČILIŠTE U ZAGREBU
FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA
Seminarski rad u okviru predmeta „Računalna forenzika“
OPEN DOCUMENT FORMAT
Alen Dražić
Zagreb, siječanj 2017.
Sadržaj
Uvod ...................................................................................................................................... 1
1. Open document format .................................................................................................. 2
1.1. Ekstenzije datoteka ................................................................................................ 2
1.2. Struktura datoteke .................................................................................................. 2
1.3. Metapodaci ............................................................................................................ 3
2. Forenzika ....................................................................................................................... 4
2.1. Oporavak i povrat podataka ................................................................................... 4
2.2. Sadržaj ................................................................................................................... 4
2.3. Ugrađeni objekti i minijaturne sličice (thumbnails) .............................................. 5
2.4. Vremenske informacije.......................................................................................... 6
2.5. Sakrivanje podataka i enkripcija............................................................................ 7
Zaključak ............................................................................................................................... 9
Literatura ............................................................................................................................. 10
1
Uvod
Više od 20 godina, programi kao što su Microsoft Word pohranjivali su svoje
dokumente u binarnom formatu. To se mijenja nakon što su Microsoft, Sun Microsystems i
drugi programeri migrirali na nove formate bazirane na XML-u. Datoteke tog tipa su
zanimljive za forenzičare zbog podataka koje sadrže; oni su bogat izvor za forenzička
istraživanja. Iako se većina istraživanja tiču isključivo sadržaja “na površini” dokumenta,
neka istraživanja poniru dublje, pretražuju metapodatke ili izbrisani sadržaj koji je još
uvijek prisutan u datoteci.
Istražitelji mogu, primjerice, koristiti metapodatke za identifikaciju potencijalno
odgovornih pojedinaca za neovlaštene izmjene datoteke, utvrditi plagijat teksta ili čak
pokazati falsificiranje dokaza. Nažalost, metapodaci se mogu mijenjati tako da umiješaju
nevine ljude. Lakoća modificiranja ovih datoteka znači da je daleko lakše napraviti
zlonamjerne promjene koje je teško (ako ne i nemoguće) otkriti. OpenDocument Format
(ODF) koristi Sun Microsystems OpenOffice softver.
2
1. Open document format
Open Document Format (ODF) je otvorenog koda i temelji se na XML standardu za
obradu teksta, proračunske tablice, grafikone i prezentacije. Specifikacija je izvorno
razvijena od strane tvrtke Sun Microsystems, ali je standardizirana od strane Organizacije
za promicanje strukturiranih informacijskih standarda (Organization for the Advancement
of Structured Information Standards , OASIS). ODF verzija 1.0 je standardizirana kao ISO
/ IEC 26300: 2006. ODF je primarni format za OpenOffice.org uredski paket.
1.1. Ekstenzije datoteka
.odt – obrada teksta
.ods – proračunske tablice
.odp – prezentacije
.odb – baze podataka
.odg – grafika
.odf – matematičke formule
ODF također podržava predloške za svaku vrstu dokumenta. Za datoteke predložaka
„t“ mijenja „d“ u ekstenziji.
1.2. Struktura datoteke
ODF dokument može biti jednostavan u obliku jedne XML datoteke. Međutim, to
je rijetko praktično. Standard navodi da ODF datoteke također mogu biti pohranjene kao
skup nekoliko poddokumenata.
3
Pakirana ODF datoteka će sadržavati, u najmanju ruku, šest datoteka i dvije mape
arhivirane u modificiranu ZIP datoteku. Ovo predstavlja minimalnu ODF datoteku.
Struktura može postati mnogo kompliciranija sa dodavanjem slika, makronaredbi i slično.
Struktura osnovnog paketa:
|-- META-INF
| `-- manifest.xml
|-- Thumbnails
| `-- thumbnail.png
|-- content.xml
|-- meta.xml
|-- mimetype
|-- settings.xml
`-- styles.xml
Važna činjenica u strukturi ZIP datoteke je da prva datoteka mora biti "MIME tip"
datoteke i ne mora biti kompresirana. String "mimetype" bi se trebao pojaviti na poziciji 30
i stvarni MIME tip na poziciji 38. Ova prilagodba omogućuje operacijskim sustavima
određivanje vrste MIME tipa datoteke bez oslanjanja na ekstenziju datoteke.
Manifest.xml datoteka sadrži popis svih datoteka u paketima, kao i njihove vrste
medija, putanju i sve informacije potrebne za dekripciju. Content.xml datoteka sadrži
sadržaj dokumenta, dok styles.xml datoteka sadrži informacije o stilu (oblikovanju)
sadržaja. Settings.xml datoteka je sama po sebi razumljiva.
1.3. Metapodaci
ODF datoteke sadrže iste meta-podatke o svakoj datoteci kao što je slučaj i kod
standardne ZIP arhive, odnosno naziv i veličinu svake poddatoteke, informacije o
kompresiji i datum izrade svake poddatoteke. Osim toga, mnogo metapodataka je sadržano
unutar XML datoteke. Meta.xml datoteka sadrži metapodatke za cijeli dokument. Nisu svi
metapodaci pohranjeni u meta.xml datoteci. Content.xml datoteka može sadržavati meta-
podatke kao što su bilješke i promjene, njihovo vrijeme stvaranja i autora.
4
2. Forenzika
2.1. Oporavak i povrat podataka
ODF datoteke su manje od ekvivalentnih ne-XML datoteka, što je rezultat ZIP
kompresije. Iako je u ZIP arhivama lako dodavanje ili uklanjanje datoteka, u mnogim
slučajevima, dodavanje ili uklanjanje dijelova arhive uzrokuje oštećenje datoteke. Stoga te
datoteke ne mogu biti otvorene u primjerice OpenOffice-u.
ZIP struktura tih datoteka je korisna pri obavljanju povratka podataka ili pretraživanju
podataka na osnovi sadržaja (file carving). (File carving je proces prepoznavanja datoteka
prema njihovom sadržaju, a ne metapodacima u datotečnom sustavu. Carving se često
koristi za povrat datoteka s uređaja koji imaju hardverske pogreške, koji su formatirani ili
su djelomično prebrisani.) Budući da svaki dio arhive uključuje Multibyte potpis i 32-bitnu
provjeru cikličke zalihosti (CRC32) za validaciju, moguć je oporavak dijelova ZIP arhive
čak i kada su drugi dijelovi oštećeni, nedostaju ili su korumpirani na drugi način. Moguće
je koristiti CRC32 i relativne pomake u arhivi da se automatski ponovno sastave
fragmentirane ZIP datoteke. Tada možemo i ručno obraditi oporavljene dijelove ili ih
staviti ih u druge ODF datoteke kako bi prikazali podatke.
2.2. Sadržaj
Format datoteke uključuje posebnu XML datoteku koja sadrži glavnu strukturu
dokumenta. Ona se zove content.xml. Forenzički alati bi trebali izvući tekst iz dijelova
sadržaja, ali bi programeri trebali shvatiti da tekst može biti prisutan i u drugim dijelovima
dokumenata.
Najjednostavniji način za forenzičke stručnjake je otvaranje dokumenta s
kompatibilnim programom. Iako ovaj pristup djeluje, postoji nekoliko potencijalnih
problema:
1. Dokument može sadržavati aktivan sadržaj kojeg forenzički istražitelj ne želi
izvršiti. (mogu sadržavati viruse)
5
2. Poveznice na web-mjestu mogu otkriti da je netko dohvatio datoteku i da ju
analizira.
3. Ako su dijelovi datoteke prepisani ili nedostaju, aplikacije kao što je OpenOffice
možda neće moći otvoriti datoteke.
4. Desktop aplikacije mogu nadzirati ili zanemariti važne informacije koje bi mogle
biti zanimljive forenzičkom istražitelju.
S obzirom na komprimiranost ODF datoteka i različitih kodiranja znakova unutar
XML-a postoji značajan problem za programere forenzičkih alata. Budući da je sav tekst
komprimiran, više nije moguće pretraživati nizove znakova na raw disku ili image-ima
diskova.
2.3. Ugrađeni objekti i minijaturne sličice (thumbnails)
Velika prednost XML formata datoteka je u tome što su slike i drugi objekti
ubačeni u tekstualne datoteke pohranjeni pojedinačno u ZIP datoteku. NeoOffice za
Macintosh pohranjuje minijature prve stranice dokumenta u dvije datoteke - .png i .pdf.
Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih
objekata. Tipična takva datoteka može sadržavati podatke povezane sa sažetkom
informacija, glavnim tekstom, tablicama i ugrađenim slikama. Datoteka sadrži i brojne
oblike metapodataka, i za dokument i za sami kontejner.
ODF upućuje na kompresiju XML datoteke. Parsiranje XML datoteke također
može biti dugotrajno pa ODF koristi jedan dokument koji je predstavljen s više XML
datoteka spakiranih u jednu ZIP arhivu. Slike i ostali binarni sadržaj nisu kodirani kao
XML, ali su pohranjeni u binarnom obliku u ZIP arhivu.
Office ZIP datoteke se sastoje od jedne ili više sekcija datoteka. Svaka sekcija se
sastoji od lokalnog zaglavlja koje sadrži metapodatke kao što su direktorij i ime datoteke,
vremenske oznake, metodu kompresije koja se koristi i dodatne informacije, nakon čega se
nalaze podaci i opisnici podataka koji uključuju 32-bitnu zaštitnu sumu. Središnji direktorij
sadrži imena svih datoteka, njihovih pomaka unutar datoteke i vremenske oznake.
6
Novi XML-bazirani formati datoteka imaju nekoliko prednosti u usporedbi s
binarnim formatima datoteka:
Komprimirani su te su obično manji od datoteka u starom formatu.
Programi koji obrađuju dokumente trebaju izdvojiti samo dijelove koji su trenutno
potrebni, a ostatak mogu ignorirati.
Sličice mogu biti korisni u forenzici. Ako sličica ne odgovara dokumentu, onda ju je
netko mijenjao ili dokument nakon stvaranja dokumenta. Ako datoteka više nije netaknuta,
sličice mogu dati istražitelju neke ideje o sadržaju datoteka prije nego što je oštećena.
Sličica također može dati uvid u ono o čemu se radi u dokumentu ako je dokument je
oštećen i ne može se u potpunosti oporaviti.
PDF sličice koje je stvorio NeoOffice sadrže autora, producenta i datum izrade PDF-a.
Međutim, ove vrijednosti tek daju naznaku o programu koji je stvorio sličicu, a ne o
korisniku koji je koristio program.
Slika 1. Zaglavlje PDF-a u NeoOffice thumbnail.pdf datoteci
Tvorac je UTF-16 kodirana riječ "Impress", producent je UTF-16 kodiranje za NeoOffice
2.2, a datum izrade je 2008/03/11, 11:46:31 Pacific Daylight Time (PDT).
2.4. Vremenske informacije
Vrijeme je često od presudne važnosti u forenzičkim istragama. Iako je sat na
računalu osumnjičenika nepouzdan, oni su često točni (osobito na računalima koja
automatski podešavaju svoje vrijeme putem Interneta). Dakle, forenzičari često mogu
7
koristiti vrijeme izmjene datoteke i vrijeme pristupa kako bi se utvrdilo što je netko vidio
ili mijenjao unutar određenog vremenskog razdoblja.
ODF sadrži brojne unutarnje vremenske oznake koje ukazuju na vrijeme kada su
dokumenti izrađeni ili modificirani. Vremenske oznake su prisutne u ZIP arhivama, u
ugrađenim XML datotekama, a potencijalno i u drugim ugrađenim objektima (na primjer,
u EXIF zaglavljima ugrađenih JPEG datoteka). Iako su vremenske oznake artefakti
stvaranja ZIP datoteka i nisu prikazane u Office aplikaciji korisniku, ipak imaju mogućnost
sadržati neke informacije o stvaranju ZIP datoteke i tako mogu biti korisne u forenzici.
NeoOffice sprema datum stvaranja dokumenta u metapodatke: datum stvaranja
meta.xml sekcije koja je sadržana u praznoj OpenDocument prezentaciji, proračunskoj
tablici i tekstu (ODP, ODS, a ODT). NeoOffice isto tako sprema thumbnail.pdf datoteku
unutar praznih ODP, ODS i ODT datoteka. Ova PDF datoteka uključuje komentare za
datum stvaranja. NeoOffice sprema datum u tekstu: oznaka datuma u styles.xml prazne
prezentacije.
Ove vremenske oznake mogu biti značajne u forenzici, na primjer, mogu pokazati
kada je netko uredio ODF datoteku. Ili vrijeme oznake može ukazivati na više sjednica
tijekom kojih se uređivala datoteka. Alternativno, oni mogu ukazivati na dokument po
kojemu se petljalo.
Vremenske oznake ODF datoteka su posebno važne za file carving jer su sve
vremenske oznake za datoteke unutar svake ZIP arhive iste, a u praksi, vjerojatno će se
razlikovati od vremenskih oznaka u drugim ZIP arhivama na istom tvrdom disku. Prema
tome, možemo koristiti ove vremenske oznake kao jedinstveni identifikator za određenu
ODF datoteku, što zauzvrat omogućuje pronalazak fragmentiranih ODF datoteka, čak i
kada su datoteke korumpirane; u mnogim slučajevima moguće ih je ponovno sastaviti.
2.5. Sakrivanje podataka i enkripcija
OpenOffice omogućuje spremanje datoteka s enkripcijom tako da korisnik mora
osigurati lozinku za otvaranje dokumenta. ODF primjenjuje enkripciju za neke od
specifičnih segmenata dokumenta, ostavljajući druge segmente nekriptiranima. Na primjer,
8
metapodaci ZIP arhive i direktorija ostaju nekriptirani. Međutim, svi dijelovi sadržaja
dokumenta su kriptirani, uključujući ove ZIP sekcije:
configurations2/accelerator/current.xml
content.xml
settings.xml
styles.xml
pictures/image.png
thumbnails/thumbnail.pdf
thumbnails/thumbnail.png
Ove sekcije su nekriptirane:
Meta-INF/manifest.xml
meta.xml
mimetype
Nedostatak enkripcije bi mogao uzrokovati curenje vrijednosti za XML oznake koje bi
mogle biti relevantne za istragu:
meta: generator - specifičan build specifične aplikacije koja je stvorila dokument;
meta: creation-date - datum stvaranja dokumenta;
dc: language - primarni jezik dokumenta;
meta: editing-cycles - brojač uređivanja dokumenta;
meta: user - definined - korisnik definira metapodatke;
meta: document-statistics - uključuje broj tablica, slika, objekata, broj stranica, broj
odlomaka, broj riječi, broj znakova.
9
Zaključak
Open Document Format (ODF) je otvorenog koda i temelji se na XML standardu
za obradu teksta, proračunske tablice, grafikone i prezentacije. ODF datoteke sadrže iste
metapodatke o svakoj datoteci kao što je slučaj i kod standardne ZIP arhive, odnosno naziv
i veličinu svake poddatoteke, informacije o kompresiji i datum izrade svake poddatoteke.
Osim toga, mnogo metapodataka je sadržano unutar XML datoteke.
Istražitelji mogu, primjerice, koristiti metapodatke za identifikaciju potencijalno
odgovornih pojedinaca za neovlaštene izmjene datoteke, utvrditi plagijat teksta ili čak
pokazati falsificiranje dokaza. Nažalost, metapodaci se mogu mijenjati tako da umiješaju
nevine ljude. Novi XML-bazirani formati datoteka imaju nekoliko prednosti u usporedbi s
binarnim formatima datoteka. Komprimirani su te su obično manji od datoteka u starom
formatu. Programi koji obrađuju dokumente trebaju izdvojiti samo dijelove koji su
trenutno potrebni, a ostatak mogu ignorirati.
OpenOffice omogućuje spremanje datoteka s enkripcijom tako da korisnik mora
osigurati lozinku za otvaranje dokumenta. ODF primjenjuje enkripciju za neke od
specifičnih segmenata dokumenta, ostavljajući druge segmente nekriptiranima.
Najjednostavniji način za forenzičke stručnjake je otvaranje dokumenta s
kompatibilnim programom. Iako ovaj pristup djeluje, postoji nekoliko potencijalnih
problema. Primjerice dokument može sadržavati aktivan sadržaj kojeg forenzički istražitelj
ne želi izvršiti (mogu sadržavati viruse), poveznice na web-mjestu mogu otkriti da je netko
dohvatio datoteku i da ju analizira i sl.
10
Literatura
[1] SIMSON L. GARFINKEL, JAMES J. MIGLETZ, New XML-Based Files
Implications for Forensics, IEEE Security & Privacy ( Volume: 7, Issue: 2, March-
April 2009 )
[2] Open Document Format, 12/01/2017,
http://forensicswiki.org/wiki/Open_Document_Format