Download - MAB and Unicode

Transcript
Page 1: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 1

MAB and Unicode

• Reinhold Heuvelmann

• Die Deutsche Bibliothek, Dept. IT,Office for Data Formats

[email protected]

Page 2: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 2

MAB and Unicode:Overview

• MAB

• Relationship of MAB and Unicode

• History of MAB and Unicode

• Multiscript Records

• Field 671 „Alternate Graphic Representation“

• Character Set Concordance MAB2 – Unicode

• The German Umlaut and Unicode

Page 3: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 3

MAB

• „Maschinelles Austauschformat für Bibliotheken“= machine-readable exchange format for libraries [in Germany and Austria]

• „fount-case“ („Setzkasten“) for the tranport of bibliographic data

• „MAB-Auschuss“ = MAB committee

• http://www.ddb.de/professionell/mab_e.htm

• http://www.ddb.de/professionell/mab.htm

Page 4: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 4

Relationship of MAB and Unicode• standards

• different levels:

bibliographic exchange format (higher level)

character set (lower level)

• different frames:

MAB: national / German language

Unicode: internationalization

• MAB uses Unicode (like other standards:IS0 646 + 5426; 639, 3166, 8601, DIN 1506 ...)

Page 5: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 5

History of MAB and Unicode (~)

• 1999: CJK Libraries

• 2000: Unicode in MAB

• 2001: Character Set Concordance

Original Script and Transliteration

• 2002: Original Script and Transliteration: Field 671

• 2003+: Umlaut

Page 6: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 6

• 030 CODIERTE ANGABEN ZUM DATENSATZ• Position 2: Zeichenvorrat

– 1 = MAB-Zeichenvorrat– 3 = DIN 31628, Stufe 1– 5 = DIN 31628, Stufe 2– 7 = DIN 31628, Stufe 3– z = Sonstiger Zeichenvorrat

• Position 3: Zeichencode– a = DIN 66003-DRV– b = DIN 66003-IRV– c = DIN 66003 + DIN 31624– d = ISO 646 (IRV) + ISO 5426– i = Industriestandard IBM-PC 850 („Diskette“)– u = Unicode / ISO 10646 (UTF 8)

– z = Sonstiger Zeichencode

Page 7: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 7

• 030 CODIERTE ANGABEN ZUM DATENSATZ

• Position 7: Transliteration/Transkription– a= Transliteration

– b= Transkription

– z= keine Angabe

Page 8: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 8

• 001 965633713

• 004 20021211

• 030 a|1uar|z|||37

• 036aDE

• 050 ||||||||a|||||

• 051 nk||z||

• 070a292

• 100bBurkhardt, Hans

• 102a101292023

• 200bECCV <5, 1998, Freiburg, Breisgau>

• 202a2170402-8

• 331 Computer vision

• 334 Elektronische Ressource

• 335 proceedings

Example 1

Page 9: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 9

Example 1 (continued)

• 359 ECCV '98, 5th European Conference onComputer Vision, Freiburg, Germany, June1998. H. Burkhardt ... (ed.)

• 410 Berlin ; Heidelberg

• 412 Springer

• 501 Lizenzpflichtig

• 653 $aOnline-Ressourcen

• 700 |28

• 700d|30

• 902s 4129594-8 Maschinelles Sehen

• 902f11|Kongress

• 902g11|Freiburg <Breisgau, 1998>

• 902f11|Online-Publikation

Page 10: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 10

• 00552nM2.01200024 h

• 001 965383385

• 004 20030930

• 030 g|1uar|z|||17

• 036aXA-DE

• 037bger

• 050 a|b|||||||||||

• 051 m|||z|||

• 070a292

• 100 Moxter, Adolf

• 102a119195186

• 331 ¬¬¬¬Die¬¬¬¬ Grundsätze ordnungsgemäßer Rechnungslegung

• 359 von Adolf Moxter

• 410 Düsseldorf

• 412 IDW-Verl.

Example 2

Page 11: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 11

• 425 2003

• 425a2003

• 433 XXIX, 350 S.

• 435 23 cm

• 540aISBN 3-8021-1026-9 Pp. : EUR 58.00

• 544aDBL#2003 A 2317

• 544aDBF#2003 A 2317

• 568 02,N44,0131

• 574 03,A42,0404

• 700 |17

• 700 |19

• 700d|10.11f;7.10a/XA-DE

• 902g 4011882-4 Deutschland

• 902s1 4069454-9 Bilanzierungsgrundsätze

• 903 21

Example 2 (continued)

Page 12: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 12

Multiscript Records

Page 13: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 13

• 00467nM2.01200024 h

• 001 968543774

• 030 g|1daz|a|||17

• 036aXA-DE-NW

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

Example 3a

Page 14: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 14

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3a (continued)

Page 15: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 15

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|z|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ in cyrillicscript]

• 335 [Subtitle „stichi“ in cyrillic script]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

Example 3b

Page 16: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 16

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3b (continued)

Page 17: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 17

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

• 370a[Main title 331 in cyrillic script]

• 370a[Subtitle 335 in cyrillic script]

Example 3c

Page 18: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 18

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3c (continued)

Page 19: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 19

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ in cyrillicscript]

• 335 [Subtitle „stichi“ in cyrillic script]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

• 370aEcho ljubvi

• 370aStichi

Example 3d

Page 20: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 20

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3d (continued)

Page 21: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 21

Field 671 „Alternate Graphic Representation“ 1

• http://www.ddb.de/professionell/pdf/mab-671.pdf

• all information in one record• field-to-field relationship original script <=> transliteration / transscription

• suitable for each part of MAB (title, authorities, holdings, adresses)

• MARC21 Field 880 as a model(„embedded field technique“)

• cf. UNIMARC and OCLC|PICA: pairs of fields

Page 22: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 22

Field 671 „Alternate Graphic Representation“ 2

• fixed part:fieldnumber + indicator + occurence of linked fieldcodes for script + orientation of this field 671codes for script + orientation of linked field

• variable content

• Script Code ISO 15924: ~ 100 scripts (http://www.evertype.com/standards/iso15924/

document/fdis15924.pdf)

Page 23: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 23

Example 3e

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 036aXA-DE-NW

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

• 403 1. Aufl.

Page 24: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 24

Example 3e (continued)

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 671 331 01CyrllLatnl[Main title 331 incyrillic script]

• 671 335 01CyrllLatnl[Subtitle 335 in cyrillic script]

• 671 359 01CyrllLatnl[Statement ofresponsibility 359in cyrillic script]

• 700 |59

Page 25: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 25

Example 3f

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ incyrillic script]

• 335 [Subtitle „stichi“ in cyrillicscript]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

Page 26: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 26

Example 3f (continued)

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 671 331 01LatnlCyrll [Version of main title331 in roman script]

• 671 335 01LatnlCyrll [Version of subtitle335 in roman script]

• 671 359 01LatnlCyrll [Version of statementof responsibility 359in roman script]

• 700 |59

Page 27: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 27

Example 4

• 00242nM2.01200024 p

• 001 121873331

• 002a20000306

• 003 20001212

• 004 20020926

• 030 |azu|||||||||

• 065 a|||

• 070 1240

• 070a292

Page 28: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 28

Example 4 (continued)

• 671 800 01JpanlLatnl[Version of heading800 in japanesescript]

• 671 830 01JpanlLatnl[Version ofpseudonym 830in japanese script]

• 800 Yamamoto, Tsunetomo

• 801 LoC-NA

• 814iSamurai, Zen-Mönch

• 815a1659-1719

• 830 Furumaru ¬¬¬¬[Pseud.]¬¬¬¬

Page 29: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 29

Character Set Concordance MAB2 – Unicode

• 1:1-relationship of character positions in

– ISO 646 (IRV) + ISO 5426-1983

–Unicode / ISO 10646

• ... if possible

• no precombination: „Ó => „A“ + „~“only single diacritics: „~“

• http://www.ddb.de/professionell/pdf/

mab_unic.pdf

Page 30: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 30

The German Umlaut and Unicode• U+0308: COMBINING DIAERESIS

= double dot above, umlaut

= Greek dialytika

= double derivative

• Double indexing

• German way

– precombination

– postcombination

• Proposal to ISO / Unicode

Page 31: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 31

What next?• Bibliographic Exchange Formats~ ok

• Cataloguing, Typing

• Transliteration, Transscription

• Storing, Formatting, Converting

• Indexing, Sorting

• Searching, Finding

• Presenting, Printing

Page 32: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 32

The End

• Thank you for your attention and patience