MAB and Unicode

32
Die Deutsche Bibliothek Arbeitsstelle Datenformate Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 1 MAB and Unicode • Reinhold Heuvelmann • Die Deutsche Bibliothek, Dept. IT, Office for Data Formats [email protected]

description

Reinhold Heuvelmann (Die Deutsche Bibliothek, Frankfurt am Main) berichtet von den neusten Entwicklungen des MAB2-Formats, das bereits Unicode / UTF-8 als Zeichensatz vorsieht und um ein zusätzliches Feld (671) erweitert wurde. Das Feld 671 entspricht dem Feld 880 des MARC-21-Formats und kann für andere Schreibvarianten des Titels, Autors usw. genutzt werden. MAB2 schreibt nicht vor, dass im Feld 671 die Originalschrift verankert werden muss; hier könnte auch die transliterierte bzw. transkribierte Fassung der Aufnahme stehen. Die Originalschrift würde dann dementsprechend in die bekannten Felder, die für diese Erweiterung nicht verändert werden mussten, aufgenommen werden.

Transcript of MAB and Unicode

Page 1: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 1

MAB and Unicode

• Reinhold Heuvelmann

• Die Deutsche Bibliothek, Dept. IT,Office for Data Formats

[email protected]

Page 2: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 2

MAB and Unicode:Overview

• MAB

• Relationship of MAB and Unicode

• History of MAB and Unicode

• Multiscript Records

• Field 671 „Alternate Graphic Representation“

• Character Set Concordance MAB2 – Unicode

• The German Umlaut and Unicode

Page 3: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 3

MAB

• „Maschinelles Austauschformat für Bibliotheken“= machine-readable exchange format for libraries [in Germany and Austria]

• „fount-case“ („Setzkasten“) for the tranport of bibliographic data

• „MAB-Auschuss“ = MAB committee

• http://www.ddb.de/professionell/mab_e.htm

• http://www.ddb.de/professionell/mab.htm

Page 4: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 4

Relationship of MAB and Unicode• standards

• different levels:

bibliographic exchange format (higher level)

character set (lower level)

• different frames:

MAB: national / German language

Unicode: internationalization

• MAB uses Unicode (like other standards:IS0 646 + 5426; 639, 3166, 8601, DIN 1506 ...)

Page 5: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 5

History of MAB and Unicode (~)

• 1999: CJK Libraries

• 2000: Unicode in MAB

• 2001: Character Set Concordance

Original Script and Transliteration

• 2002: Original Script and Transliteration: Field 671

• 2003+: Umlaut

Page 6: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 6

• 030 CODIERTE ANGABEN ZUM DATENSATZ• Position 2: Zeichenvorrat

– 1 = MAB-Zeichenvorrat– 3 = DIN 31628, Stufe 1– 5 = DIN 31628, Stufe 2– 7 = DIN 31628, Stufe 3– z = Sonstiger Zeichenvorrat

• Position 3: Zeichencode– a = DIN 66003-DRV– b = DIN 66003-IRV– c = DIN 66003 + DIN 31624– d = ISO 646 (IRV) + ISO 5426– i = Industriestandard IBM-PC 850 („Diskette“)– u = Unicode / ISO 10646 (UTF 8)

– z = Sonstiger Zeichencode

Page 7: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 7

• 030 CODIERTE ANGABEN ZUM DATENSATZ

• Position 7: Transliteration/Transkription– a= Transliteration

– b= Transkription

– z= keine Angabe

Page 8: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 8

• 001 965633713

• 004 20021211

• 030 a|1uar|z|||37

• 036aDE

• 050 ||||||||a|||||

• 051 nk||z||

• 070a292

• 100bBurkhardt, Hans

• 102a101292023

• 200bECCV <5, 1998, Freiburg, Breisgau>

• 202a2170402-8

• 331 Computer vision

• 334 Elektronische Ressource

• 335 proceedings

Example 1

Page 9: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 9

Example 1 (continued)

• 359 ECCV '98, 5th European Conference onComputer Vision, Freiburg, Germany, June1998. H. Burkhardt ... (ed.)

• 410 Berlin ; Heidelberg

• 412 Springer

• 501 Lizenzpflichtig

• 653 $aOnline-Ressourcen

• 700 |28

• 700d|30

• 902s 4129594-8 Maschinelles Sehen

• 902f11|Kongress

• 902g11|Freiburg <Breisgau, 1998>

• 902f11|Online-Publikation

Page 10: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 10

• 00552nM2.01200024 h

• 001 965383385

• 004 20030930

• 030 g|1uar|z|||17

• 036aXA-DE

• 037bger

• 050 a|b|||||||||||

• 051 m|||z|||

• 070a292

• 100 Moxter, Adolf

• 102a119195186

• 331 ¬¬¬¬Die¬¬¬¬ Grundsätze ordnungsgemäßer Rechnungslegung

• 359 von Adolf Moxter

• 410 Düsseldorf

• 412 IDW-Verl.

Example 2

Page 11: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 11

• 425 2003

• 425a2003

• 433 XXIX, 350 S.

• 435 23 cm

• 540aISBN 3-8021-1026-9 Pp. : EUR 58.00

• 544aDBL#2003 A 2317

• 544aDBF#2003 A 2317

• 568 02,N44,0131

• 574 03,A42,0404

• 700 |17

• 700 |19

• 700d|10.11f;7.10a/XA-DE

• 902g 4011882-4 Deutschland

• 902s1 4069454-9 Bilanzierungsgrundsätze

• 903 21

Example 2 (continued)

Page 12: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 12

Multiscript Records

Page 13: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 13

• 00467nM2.01200024 h

• 001 968543774

• 030 g|1daz|a|||17

• 036aXA-DE-NW

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

Example 3a

Page 14: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 14

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3a (continued)

Page 15: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 15

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|z|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ in cyrillicscript]

• 335 [Subtitle „stichi“ in cyrillic script]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

Example 3b

Page 16: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 16

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3b (continued)

Page 17: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 17

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

• 370a[Main title 331 in cyrillic script]

• 370a[Subtitle 335 in cyrillic script]

Example 3c

Page 18: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 18

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3c (continued)

Page 19: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 19

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ in cyrillicscript]

• 335 [Subtitle „stichi“ in cyrillic script]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

• 370aEcho ljubvi

• 370aStichi

Example 3d

Page 20: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 20

• 403 1. Aufl.

• 410 Lage-Hörst

• 412 BMV-Verl. Burau

• 425a2003

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 700 |59

Example 3d (continued)

Page 21: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 21

Field 671 „Alternate Graphic Representation“ 1

• http://www.ddb.de/professionell/pdf/mab-671.pdf

• all information in one record• field-to-field relationship original script <=> transliteration / transscription

• suitable for each part of MAB (title, authorities, holdings, adresses)

• MARC21 Field 880 as a model(„embedded field technique“)

• cf. UNIMARC and OCLC|PICA: pairs of fields

Page 22: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 22

Field 671 „Alternate Graphic Representation“ 2

• fixed part:fieldnumber + indicator + occurence of linked fieldcodes for script + orientation of this field 671codes for script + orientation of linked field

• variable content

• Script Code ISO 15924: ~ 100 scripts (http://www.evertype.com/standards/iso15924/

document/fdis15924.pdf)

Page 23: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 23

Example 3e

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 036aXA-DE-NW

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 Echo ljubvi

• 335 stichi

• 359 Agnes Gizbrecht

• 403 1. Aufl.

Page 24: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 24

Example 3e (continued)

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 671 331 01CyrllLatnl[Main title 331 incyrillic script]

• 671 335 01CyrllLatnl[Subtitle 335 in cyrillic script]

• 671 359 01CyrllLatnl[Statement ofresponsibility 359in cyrillic script]

• 700 |59

Page 25: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 25

Example 3f

• 00467nM2.01200024 h

• 001 968543774

• 030 g|zuaz|a|||17

• 037brus

• 100 Giesbrecht, Agnes

• 102a122352548

• 331 [Main title „Echo ljubvi“ incyrillic script]

• 335 [Subtitle „stichi“ in cyrillicscript]

• 359 [Statement of responsibility „AgnesGizbrecht“ in cyrillic script]

Page 26: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 26

Example 3f (continued)

• 540aISBN 3-935000-34-0 kart. : EUR 9.90

• 671 331 01LatnlCyrll [Version of main title331 in roman script]

• 671 335 01LatnlCyrll [Version of subtitle335 in roman script]

• 671 359 01LatnlCyrll [Version of statementof responsibility 359in roman script]

• 700 |59

Page 27: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 27

Example 4

• 00242nM2.01200024 p

• 001 121873331

• 002a20000306

• 003 20001212

• 004 20020926

• 030 |azu|||||||||

• 065 a|||

• 070 1240

• 070a292

Page 28: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 28

Example 4 (continued)

• 671 800 01JpanlLatnl[Version of heading800 in japanesescript]

• 671 830 01JpanlLatnl[Version ofpseudonym 830in japanese script]

• 800 Yamamoto, Tsunetomo

• 801 LoC-NA

• 814iSamurai, Zen-Mönch

• 815a1659-1719

• 830 Furumaru ¬¬¬¬[Pseud.]¬¬¬¬

Page 29: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 29

Character Set Concordance MAB2 – Unicode

• 1:1-relationship of character positions in

– ISO 646 (IRV) + ISO 5426-1983

–Unicode / ISO 10646

• ... if possible

• no precombination: „Ó => „A“ + „~“only single diacritics: „~“

• http://www.ddb.de/professionell/pdf/

mab_unic.pdf

Page 30: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 30

The German Umlaut and Unicode• U+0308: COMBINING DIAERESIS

= double dot above, umlaut

= Greek dialytika

= double derivative

• Double indexing

• German way

– precombination

– postcombination

• Proposal to ISO / Unicode

Page 31: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 31

What next?• Bibliographic Exchange Formats~ ok

• Cataloguing, Typing

• Transliteration, Transscription

• Storing, Formatting, Converting

• Indexing, Sorting

• Searching, Finding

• Presenting, Printing

Page 32: MAB and Unicode

Die Deutsche Bibliothek Arbeitsstelle Datenformate

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, 7. Oktober 2003 32

The End

• Thank you for your attention and patience