OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“...

12
SVEUČILIŠTE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA Seminarski rad u okviru predmeta „Računalna forenzika“ OPEN DOCUMENT FORMAT Alen Dražić Zagreb, siječanj 2017.

Transcript of OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“...

Page 1: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

SVEUČILIŠTE U ZAGREBU

FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA

Seminarski rad u okviru predmeta „Računalna forenzika“

OPEN DOCUMENT FORMAT

Alen Dražić

Zagreb, siječanj 2017.

Page 2: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

Sadržaj

Uvod ...................................................................................................................................... 1

1. Open document format .................................................................................................. 2

1.1. Ekstenzije datoteka ................................................................................................ 2

1.2. Struktura datoteke .................................................................................................. 2

1.3. Metapodaci ............................................................................................................ 3

2. Forenzika ....................................................................................................................... 4

2.1. Oporavak i povrat podataka ................................................................................... 4

2.2. Sadržaj ................................................................................................................... 4

2.3. Ugrađeni objekti i minijaturne sličice (thumbnails) .............................................. 5

2.4. Vremenske informacije.......................................................................................... 6

2.5. Sakrivanje podataka i enkripcija............................................................................ 7

Zaključak ............................................................................................................................... 9

Literatura ............................................................................................................................. 10

Page 3: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

1

Uvod

Više od 20 godina, programi kao što su Microsoft Word pohranjivali su svoje

dokumente u binarnom formatu. To se mijenja nakon što su Microsoft, Sun Microsystems i

drugi programeri migrirali na nove formate bazirane na XML-u. Datoteke tog tipa su

zanimljive za forenzičare zbog podataka koje sadrže; oni su bogat izvor za forenzička

istraživanja. Iako se većina istraživanja tiču isključivo sadržaja “na površini” dokumenta,

neka istraživanja poniru dublje, pretražuju metapodatke ili izbrisani sadržaj koji je još

uvijek prisutan u datoteci.

Istražitelji mogu, primjerice, koristiti metapodatke za identifikaciju potencijalno

odgovornih pojedinaca za neovlaštene izmjene datoteke, utvrditi plagijat teksta ili čak

pokazati falsificiranje dokaza. Nažalost, metapodaci se mogu mijenjati tako da umiješaju

nevine ljude. Lakoća modificiranja ovih datoteka znači da je daleko lakše napraviti

zlonamjerne promjene koje je teško (ako ne i nemoguće) otkriti. OpenDocument Format

(ODF) koristi Sun Microsystems OpenOffice softver.

Page 4: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

2

1. Open document format

Open Document Format (ODF) je otvorenog koda i temelji se na XML standardu za

obradu teksta, proračunske tablice, grafikone i prezentacije. Specifikacija je izvorno

razvijena od strane tvrtke Sun Microsystems, ali je standardizirana od strane Organizacije

za promicanje strukturiranih informacijskih standarda (Organization for the Advancement

of Structured Information Standards , OASIS). ODF verzija 1.0 je standardizirana kao ISO

/ IEC 26300: 2006. ODF je primarni format za OpenOffice.org uredski paket.

1.1. Ekstenzije datoteka

.odt – obrada teksta

.ods – proračunske tablice

.odp – prezentacije

.odb – baze podataka

.odg – grafika

.odf – matematičke formule

ODF također podržava predloške za svaku vrstu dokumenta. Za datoteke predložaka

„t“ mijenja „d“ u ekstenziji.

1.2. Struktura datoteke

ODF dokument može biti jednostavan u obliku jedne XML datoteke. Međutim, to

je rijetko praktično. Standard navodi da ODF datoteke također mogu biti pohranjene kao

skup nekoliko poddokumenata.

Page 5: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

3

Pakirana ODF datoteka će sadržavati, u najmanju ruku, šest datoteka i dvije mape

arhivirane u modificiranu ZIP datoteku. Ovo predstavlja minimalnu ODF datoteku.

Struktura može postati mnogo kompliciranija sa dodavanjem slika, makronaredbi i slično.

Struktura osnovnog paketa:

|-- META-INF

| `-- manifest.xml

|-- Thumbnails

| `-- thumbnail.png

|-- content.xml

|-- meta.xml

|-- mimetype

|-- settings.xml

`-- styles.xml

Važna činjenica u strukturi ZIP datoteke je da prva datoteka mora biti "MIME tip"

datoteke i ne mora biti kompresirana. String "mimetype" bi se trebao pojaviti na poziciji 30

i stvarni MIME tip na poziciji 38. Ova prilagodba omogućuje operacijskim sustavima

određivanje vrste MIME tipa datoteke bez oslanjanja na ekstenziju datoteke.

Manifest.xml datoteka sadrži popis svih datoteka u paketima, kao i njihove vrste

medija, putanju i sve informacije potrebne za dekripciju. Content.xml datoteka sadrži

sadržaj dokumenta, dok styles.xml datoteka sadrži informacije o stilu (oblikovanju)

sadržaja. Settings.xml datoteka je sama po sebi razumljiva.

1.3. Metapodaci

ODF datoteke sadrže iste meta-podatke o svakoj datoteci kao što je slučaj i kod

standardne ZIP arhive, odnosno naziv i veličinu svake poddatoteke, informacije o

kompresiji i datum izrade svake poddatoteke. Osim toga, mnogo metapodataka je sadržano

unutar XML datoteke. Meta.xml datoteka sadrži metapodatke za cijeli dokument. Nisu svi

metapodaci pohranjeni u meta.xml datoteci. Content.xml datoteka može sadržavati meta-

podatke kao što su bilješke i promjene, njihovo vrijeme stvaranja i autora.

Page 6: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

4

2. Forenzika

2.1. Oporavak i povrat podataka

ODF datoteke su manje od ekvivalentnih ne-XML datoteka, što je rezultat ZIP

kompresije. Iako je u ZIP arhivama lako dodavanje ili uklanjanje datoteka, u mnogim

slučajevima, dodavanje ili uklanjanje dijelova arhive uzrokuje oštećenje datoteke. Stoga te

datoteke ne mogu biti otvorene u primjerice OpenOffice-u.

ZIP struktura tih datoteka je korisna pri obavljanju povratka podataka ili pretraživanju

podataka na osnovi sadržaja (file carving). (File carving je proces prepoznavanja datoteka

prema njihovom sadržaju, a ne metapodacima u datotečnom sustavu. Carving se često

koristi za povrat datoteka s uređaja koji imaju hardverske pogreške, koji su formatirani ili

su djelomično prebrisani.) Budući da svaki dio arhive uključuje Multibyte potpis i 32-bitnu

provjeru cikličke zalihosti (CRC32) za validaciju, moguć je oporavak dijelova ZIP arhive

čak i kada su drugi dijelovi oštećeni, nedostaju ili su korumpirani na drugi način. Moguće

je koristiti CRC32 i relativne pomake u arhivi da se automatski ponovno sastave

fragmentirane ZIP datoteke. Tada možemo i ručno obraditi oporavljene dijelove ili ih

staviti ih u druge ODF datoteke kako bi prikazali podatke.

2.2. Sadržaj

Format datoteke uključuje posebnu XML datoteku koja sadrži glavnu strukturu

dokumenta. Ona se zove content.xml. Forenzički alati bi trebali izvući tekst iz dijelova

sadržaja, ali bi programeri trebali shvatiti da tekst može biti prisutan i u drugim dijelovima

dokumenata.

Najjednostavniji način za forenzičke stručnjake je otvaranje dokumenta s

kompatibilnim programom. Iako ovaj pristup djeluje, postoji nekoliko potencijalnih

problema:

1. Dokument može sadržavati aktivan sadržaj kojeg forenzički istražitelj ne želi

izvršiti. (mogu sadržavati viruse)

Page 7: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

5

2. Poveznice na web-mjestu mogu otkriti da je netko dohvatio datoteku i da ju

analizira.

3. Ako su dijelovi datoteke prepisani ili nedostaju, aplikacije kao što je OpenOffice

možda neće moći otvoriti datoteke.

4. Desktop aplikacije mogu nadzirati ili zanemariti važne informacije koje bi mogle

biti zanimljive forenzičkom istražitelju.

S obzirom na komprimiranost ODF datoteka i različitih kodiranja znakova unutar

XML-a postoji značajan problem za programere forenzičkih alata. Budući da je sav tekst

komprimiran, više nije moguće pretraživati nizove znakova na raw disku ili image-ima

diskova.

2.3. Ugrađeni objekti i minijaturne sličice (thumbnails)

Velika prednost XML formata datoteka je u tome što su slike i drugi objekti

ubačeni u tekstualne datoteke pohranjeni pojedinačno u ZIP datoteku. NeoOffice za

Macintosh pohranjuje minijature prve stranice dokumenta u dvije datoteke - .png i .pdf.

Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

objekata. Tipična takva datoteka može sadržavati podatke povezane sa sažetkom

informacija, glavnim tekstom, tablicama i ugrađenim slikama. Datoteka sadrži i brojne

oblike metapodataka, i za dokument i za sami kontejner.

ODF upućuje na kompresiju XML datoteke. Parsiranje XML datoteke također

može biti dugotrajno pa ODF koristi jedan dokument koji je predstavljen s više XML

datoteka spakiranih u jednu ZIP arhivu. Slike i ostali binarni sadržaj nisu kodirani kao

XML, ali su pohranjeni u binarnom obliku u ZIP arhivu.

Office ZIP datoteke se sastoje od jedne ili više sekcija datoteka. Svaka sekcija se

sastoji od lokalnog zaglavlja koje sadrži metapodatke kao što su direktorij i ime datoteke,

vremenske oznake, metodu kompresije koja se koristi i dodatne informacije, nakon čega se

nalaze podaci i opisnici podataka koji uključuju 32-bitnu zaštitnu sumu. Središnji direktorij

sadrži imena svih datoteka, njihovih pomaka unutar datoteke i vremenske oznake.

Page 8: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

6

Novi XML-bazirani formati datoteka imaju nekoliko prednosti u usporedbi s

binarnim formatima datoteka:

Komprimirani su te su obično manji od datoteka u starom formatu.

Programi koji obrađuju dokumente trebaju izdvojiti samo dijelove koji su trenutno

potrebni, a ostatak mogu ignorirati.

Sličice mogu biti korisni u forenzici. Ako sličica ne odgovara dokumentu, onda ju je

netko mijenjao ili dokument nakon stvaranja dokumenta. Ako datoteka više nije netaknuta,

sličice mogu dati istražitelju neke ideje o sadržaju datoteka prije nego što je oštećena.

Sličica također može dati uvid u ono o čemu se radi u dokumentu ako je dokument je

oštećen i ne može se u potpunosti oporaviti.

PDF sličice koje je stvorio NeoOffice sadrže autora, producenta i datum izrade PDF-a.

Međutim, ove vrijednosti tek daju naznaku o programu koji je stvorio sličicu, a ne o

korisniku koji je koristio program.

Slika 1. Zaglavlje PDF-a u NeoOffice thumbnail.pdf datoteci

Tvorac je UTF-16 kodirana riječ "Impress", producent je UTF-16 kodiranje za NeoOffice

2.2, a datum izrade je 2008/03/11, 11:46:31 Pacific Daylight Time (PDT).

2.4. Vremenske informacije

Vrijeme je često od presudne važnosti u forenzičkim istragama. Iako je sat na

računalu osumnjičenika nepouzdan, oni su često točni (osobito na računalima koja

automatski podešavaju svoje vrijeme putem Interneta). Dakle, forenzičari često mogu

Page 9: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

7

koristiti vrijeme izmjene datoteke i vrijeme pristupa kako bi se utvrdilo što je netko vidio

ili mijenjao unutar određenog vremenskog razdoblja.

ODF sadrži brojne unutarnje vremenske oznake koje ukazuju na vrijeme kada su

dokumenti izrađeni ili modificirani. Vremenske oznake su prisutne u ZIP arhivama, u

ugrađenim XML datotekama, a potencijalno i u drugim ugrađenim objektima (na primjer,

u EXIF zaglavljima ugrađenih JPEG datoteka). Iako su vremenske oznake artefakti

stvaranja ZIP datoteka i nisu prikazane u Office aplikaciji korisniku, ipak imaju mogućnost

sadržati neke informacije o stvaranju ZIP datoteke i tako mogu biti korisne u forenzici.

NeoOffice sprema datum stvaranja dokumenta u metapodatke: datum stvaranja

meta.xml sekcije koja je sadržana u praznoj OpenDocument prezentaciji, proračunskoj

tablici i tekstu (ODP, ODS, a ODT). NeoOffice isto tako sprema thumbnail.pdf datoteku

unutar praznih ODP, ODS i ODT datoteka. Ova PDF datoteka uključuje komentare za

datum stvaranja. NeoOffice sprema datum u tekstu: oznaka datuma u styles.xml prazne

prezentacije.

Ove vremenske oznake mogu biti značajne u forenzici, na primjer, mogu pokazati

kada je netko uredio ODF datoteku. Ili vrijeme oznake može ukazivati na više sjednica

tijekom kojih se uređivala datoteka. Alternativno, oni mogu ukazivati na dokument po

kojemu se petljalo.

Vremenske oznake ODF datoteka su posebno važne za file carving jer su sve

vremenske oznake za datoteke unutar svake ZIP arhive iste, a u praksi, vjerojatno će se

razlikovati od vremenskih oznaka u drugim ZIP arhivama na istom tvrdom disku. Prema

tome, možemo koristiti ove vremenske oznake kao jedinstveni identifikator za određenu

ODF datoteku, što zauzvrat omogućuje pronalazak fragmentiranih ODF datoteka, čak i

kada su datoteke korumpirane; u mnogim slučajevima moguće ih je ponovno sastaviti.

2.5. Sakrivanje podataka i enkripcija

OpenOffice omogućuje spremanje datoteka s enkripcijom tako da korisnik mora

osigurati lozinku za otvaranje dokumenta. ODF primjenjuje enkripciju za neke od

specifičnih segmenata dokumenta, ostavljajući druge segmente nekriptiranima. Na primjer,

Page 10: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

8

metapodaci ZIP arhive i direktorija ostaju nekriptirani. Međutim, svi dijelovi sadržaja

dokumenta su kriptirani, uključujući ove ZIP sekcije:

configurations2/accelerator/current.xml

content.xml

settings.xml

styles.xml

pictures/image.png

thumbnails/thumbnail.pdf

thumbnails/thumbnail.png

Ove sekcije su nekriptirane:

Meta-INF/manifest.xml

meta.xml

mimetype

Nedostatak enkripcije bi mogao uzrokovati curenje vrijednosti za XML oznake koje bi

mogle biti relevantne za istragu:

meta: generator - specifičan build specifične aplikacije koja je stvorila dokument;

meta: creation-date - datum stvaranja dokumenta;

dc: language - primarni jezik dokumenta;

meta: editing-cycles - brojač uređivanja dokumenta;

meta: user - definined - korisnik definira metapodatke;

meta: document-statistics - uključuje broj tablica, slika, objekata, broj stranica, broj

odlomaka, broj riječi, broj znakova.

Page 11: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

9

Zaključak

Open Document Format (ODF) je otvorenog koda i temelji se na XML standardu

za obradu teksta, proračunske tablice, grafikone i prezentacije. ODF datoteke sadrže iste

metapodatke o svakoj datoteci kao što je slučaj i kod standardne ZIP arhive, odnosno naziv

i veličinu svake poddatoteke, informacije o kompresiji i datum izrade svake poddatoteke.

Osim toga, mnogo metapodataka je sadržano unutar XML datoteke.

Istražitelji mogu, primjerice, koristiti metapodatke za identifikaciju potencijalno

odgovornih pojedinaca za neovlaštene izmjene datoteke, utvrditi plagijat teksta ili čak

pokazati falsificiranje dokaza. Nažalost, metapodaci se mogu mijenjati tako da umiješaju

nevine ljude. Novi XML-bazirani formati datoteka imaju nekoliko prednosti u usporedbi s

binarnim formatima datoteka. Komprimirani su te su obično manji od datoteka u starom

formatu. Programi koji obrađuju dokumente trebaju izdvojiti samo dijelove koji su

trenutno potrebni, a ostatak mogu ignorirati.

OpenOffice omogućuje spremanje datoteka s enkripcijom tako da korisnik mora

osigurati lozinku za otvaranje dokumenta. ODF primjenjuje enkripciju za neke od

specifičnih segmenata dokumenta, ostavljajući druge segmente nekriptiranima.

Najjednostavniji način za forenzičke stručnjake je otvaranje dokumenta s

kompatibilnim programom. Iako ovaj pristup djeluje, postoji nekoliko potencijalnih

problema. Primjerice dokument može sadržavati aktivan sadržaj kojeg forenzički istražitelj

ne želi izvršiti (mogu sadržavati viruse), poveznice na web-mjestu mogu otkriti da je netko

dohvatio datoteku i da ju analizira i sl.

Page 12: OPEN DOCUMENT FORMAT - LeCTo Player...Seminarski rad u okviru predmeta „Računalna forenzika“ ... Datoteke ovoga tipa su kontejneri, tj. datoteke koje sadrže više podatkovnih

10

Literatura

[1] SIMSON L. GARFINKEL, JAMES J. MIGLETZ, New XML-Based Files

Implications for Forensics, IEEE Security & Privacy ( Volume: 7, Issue: 2, March-

April 2009 )

[2] Open Document Format, 12/01/2017,

http://forensicswiki.org/wiki/Open_Document_Format