💾 Archived View for plot47.space › ideas › latin-g-extended-ascii.gmi captured on 2023-01-29 at 02:17:50. Gemini links have been rewritten to link to archived content

-=-=-=-=-=-=-

Extended ASCII - Latin G (Latin Graphic)

Each column of the table shows the lower nibble (Hexadecimal x0-xF) of the character byte.

Each row of the table shows the upper nibble (Hexadecimal 0x-Fx) of the character byte.

Lower case "k", would therefore be represented by the byte 6B in hexadecimal (107 in decimal).

  │ 0 │ 1 │ 2 │ 3 │ 4 │ 5 │ 6 │ 7 │ 8 │ 9 │ A │ B │ C │ D │ E │ F │
──┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───︎┤ ┐
0x│NUL│SOH│STX│ETX│EOT│ENQ│ACK│BEL│BS │TAB│LF │VT │FF │CR │SO │SI │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
1x│DLE│DC1│DC2│DC3│DC4│NAK│SYN│ETB│CAN│EM │SUB│ESC│FS │GS │RS │US │ │
──┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤ │
2x│SPC│ ! │ " │ # │ $ │ % │ & │ ' │ ( │ ) │ * │ + │ , │ - │ . │ / │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │ A
3x│ 0 │ 1 │ 2 │ 3 │ 4 │ 5 │ 6 │ 7 │ 8 │ 9 │ : │ ; │ < │ = │ > │ ? │ │ S
──┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤ ├ C
4x│ @ │ A │ B │ C │ D │ E │ F │ G │ H │ I │ J │ K │ L │ M │ N │ O │ │ I
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │ I
5x│ P │ Q │ R │ S │ T │ U │ V │ W │ X │ Y │ Z │ [ │ \ │ ] │ ^ │ _ │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
6x│ ` │ a │ b │ c │ d │ e │ f │ g │ h │ i │ j │ k │ l │ m │ n │ o │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
7x│ p │ q │ r │ s │ t │ u │ v │ w │ x │ y │ z │ { │ | │ } │ ~ │DEL│ │
─────────────────────────────────────────────────────────────────── ┘
8x│ Ä │ Á │ « │ Ç │ Ë │ É │ € │ ‹ │ Ï │ Í │ ‰ │ ┴ │ ︎┐ │ █︎ │ Ö │ Ó │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
9x│ Ã │ Å │ ¡ │ Š │ Ü │ Ú │ Ẅ │ Ẃ │ Ÿ │ Ý │ Ž │ ├ │ ︎┘ │ Ñ │ Õ │ Ø │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
Ax│ ä │ á │ » │ ç │ ë │ é │ £ │ › │ ï │ í │ ‱ │ ┬ │ ︎└ │ ░︎ │ ö │ ó │ │ E
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │ x
Bx│ ã │ å │ ¿ │ š │ ü │ ú │ ẅ │ ẃ │ ÿ │ ý │ ž │ ┤ │ ︎︎┌ │ ñ │ õ │ ø │ │ t
──┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤ ├ e
Cx│ À │ Â │ „ │ Ð │ È │ Ê │ ¥ │ ©︎ │ Ì │ Î │ § │ ║ │ √︎ │ ª │ Ò │ Ô │ │ n
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │ d
Dx│ Æ │ μ │ ß │ Þ │ Ù │ Û │ Ẁ │ Ŵ │ Ỳ │ Ŷ │ · │ ─ │ ¹ │ ●︎ │ Œ │ Ǿ │ │ e
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │ d
Ex│ à │ â │ ° │ ð │ è │ ê │ ¤ │ ®︎ │ ì │ î │ ¶ │ │ │ ² │ º │ ò │ ô │ │
─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┼ ─ ┤ │
Fx│ æ │ π │ ß │ þ │ ù │ û │ ẁ │ ŵ │ ỳ │ ŷ │ ± │ ┼ │ ³ │ ○︎ │ œ │ ǿ │ │
──┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───︎┘ ┘
          └─┬─┘           └───┬───┘       └───────┬───────┘
       Punctuation    Currency, rights  Typographical, drawing
        & quotes          & quotes          & super script

NUL : Null character         DLE : Data link escape
SOH : Start of Header        DC1 : Device control 1 (XON)
STX : Start of Text          DC2 : Device control 2
ETX : End of Text            DC3 : Device control 3 (XOFF)
EOT : End of Transmission    DC4 : Device control 4
ENQ : Enquiry                NAK : Negative-acknowledge
ACK : Acknowledgement        SYN : Synchronous idle
BEL : Bell                   ETB : End of trans. block
BS  : Backspace              CAN : Cancel
TAB : Horizontal Tab (HT)    EM  : End of medium
LF  : Line feed              SUB : Substitute
VT  : Vertical Tab           ESC : Escape
FF  : Form feed              FS  : File separator
CR  : Carriage return        GS  : Group separator
SO  : Shift Out              RS  : Record separator
SI  : Shift In               US  : Unit separator

SPC : Space                  DEL : Delete

By convention, if the control characters above need to be
printed, they use the "¤" (E6) character.

Modern languages with complete coverage of their alphabet:

Base          Extended     Concomitant
────          ────────     ───────────
English       Danish       Irish
French        Norwegian    Scots Gaelic
Spanish       Swedish      Catalan
Portuguese    Dutch        Breton
Italian       Icelandic    Albanian
German        Welsh        Galician
              Finnish      Afrikaans
                           Luxembourgish
                           Estonian
                           Faroese
                           Greenlandic
                           Malay
                           Indonesian
                           Occitan
                           Romansh
                           Tagalog
                           Walloon
                           Latin

And possibly some more languages as well.

The base languages are the main ones the character set is covering.
The extended languages add a few extra characters so that they are
fully covered.
The concomitant languages, just happen to be fully covered because
they use the characters from the base and extended languages.
The character set tries to fully cover the western and northern
European languages which have an alphabet mainly derived from Latin.

Using the extended ASCII character set

The extended part of the encoding (128-255) is laid out in a similar way to the ASCII upper and lower case letters, but with two sections rather than one. This facilitates moving between upper and lower case letters by adding 32, and subtracting 32 to go from lower case to upper case. The below outlines simple calculations which can be used to arrive at the extended character, starting from the ASCII letter. e.g. "Á" is got by taking ASCII upper case "A" and adding 64 to it. To go from "Á" to the lower case form, add 32 and get "á", just like going from ASCII "A" to lower case ASCII "a". The simple calculations for diacritics, ligatures and special characters, only apply to the ones supported in the extended character set.

This encoding is a subset of UTF-8, in that all characters come from UTF-8, so can be translated to/from UTF-8 easily. When translating to UTF-8, it does not use any combining characters, each of the accented and special letters are single code points, though it does use the text variation selector to specify that some code points are represented as text by adding an additional code point (U+FE0E). When translating from UTF-8, the characters must be normalized (go through Unicode composition) first, so that more than one code point i.e. a letter with a combining diacritical mark, becomes one.

Extended characters and their Unicode mappings

Ä 80 = U+00C4 : LATIN CAPITAL LETTER A WITH DIAERESIS
Ã 90 = U+00C3 : LATIN CAPITAL LETTER A WITH TILDE
ä A0 = U+00E4 : LATIN SMALL LETTER A WITH DIAERESIS
ã B0 = U+00E3 : LATIN SMALL LETTER A WITH TILDE
À C0 = U+00C0 : LATIN CAPITAL LETTER A WITH GRAVE
Æ D0 = U+00C6 : LATIN CAPITAL LETTER AE {latin capital ligature ae (1.1)}
à E0 = U+00E0 : LATIN SMALL LETTER A WITH GRAVE
æ F0 = U+00E6 : LATIN SMALL LETTER AE {latin small ligature ae (1.1); ash (from Old English æsc)}
Á 81 = U+00C1 : LATIN CAPITAL LETTER A WITH ACUTE
Å 91 = U+00C5 : LATIN CAPITAL LETTER A WITH RING ABOVE
á A1 = U+00E1 : LATIN SMALL LETTER A WITH ACUTE
å B1 = U+00E5 : LATIN SMALL LETTER A WITH RING ABOVE
Â C1 = U+00C2 : LATIN CAPITAL LETTER A WITH CIRCUMFLEX
μ D1 = U+03BC : GREEK SMALL LETTER MU
â E1 = U+00E2 : LATIN SMALL LETTER A WITH CIRCUMFLEX
π F1 = U+03C0 : GREEK SMALL LETTER PI
« 82 = U+00AB : LEFT-POINTING DOUBLE ANGLE QUOTATION MARK {left guillemet; chevrons (in typography)}
¡ 92 = U+00A1 : INVERTED EXCLAMATION MARK
» A2 = U+00BB : RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK {right guillemet}
¿ B2 = U+00BF : INVERTED QUESTION MARK {turned question mark}
„ C2 = U+201E : DOUBLE LOW-9 QUOTATION MARK {low double comma quotation mark}
ẞ D2 = U+1E9E : LATIN CAPITAL LETTER SHARP S
° E2 = U+00B0 : DEGREE SIGN
ß F2 = U+00DF : LATIN SMALL LETTER SHARP S {Eszett}
Ç 83 = U+00C7 : LATIN CAPITAL LETTER C WITH CEDILLA
Š 93 = U+0160 : LATIN CAPITAL LETTER S WITH CARON
ç A3 = U+00E7 : LATIN SMALL LETTER C WITH CEDILLA
š B3 = U+0161 : LATIN SMALL LETTER S WITH CARON
Ð C3 = U+00D0 : LATIN CAPITAL LETTER ETH
Þ D3 = U+00DE : LATIN CAPITAL LETTER THORN
ð E3 = U+00F0 : LATIN SMALL LETTER ETH
þ F3 = U+00FE : LATIN SMALL LETTER THORN
Ë 84 = U+00CB : LATIN CAPITAL LETTER E WITH DIAERESIS
Ü 94 = U+00DC : LATIN CAPITAL LETTER U WITH DIAERESIS
ë A4 = U+00EB : LATIN SMALL LETTER E WITH DIAERESIS
ü B4 = U+00FC : LATIN SMALL LETTER U WITH DIAERESIS
È C4 = U+00C8 : LATIN CAPITAL LETTER E WITH GRAVE
Ù D4 = U+00D9 : LATIN CAPITAL LETTER U WITH GRAVE
è E4 = U+00E8 : LATIN SMALL LETTER E WITH GRAVE
ù F4 = U+00F9 : LATIN SMALL LETTER U WITH GRAVE
É 85 = U+00C9 : LATIN CAPITAL LETTER E WITH ACUTE
Ú 95 = U+00DA : LATIN CAPITAL LETTER U WITH ACUTE
é A5 = U+00E9 : LATIN SMALL LETTER E WITH ACUTE
ú B5 = U+00FA : LATIN SMALL LETTER U WITH ACUTE
Ê C5 = U+00CA : LATIN CAPITAL LETTER E WITH CIRCUMFLEX
Û D5 = U+00DB : LATIN CAPITAL LETTER U WITH CIRCUMFLEX
ê E5 = U+00EA : LATIN SMALL LETTER E WITH CIRCUMFLEX
û F5 = U+00FB : LATIN SMALL LETTER U WITH CIRCUMFLEX
€ 86 = U+20AC : EURO SIGN
Ẅ 96 = U+1E84 : LATIN CAPITAL LETTER W WITH DIAERESIS
£ A6 = U+00A3 : POUND SIGN {pound sterling, Irish punt, Italian lira, Turkish lira, etc.}
ẅ B6 = U+1E85 : LATIN SMALL LETTER W WITH DIAERESIS
¥ C6 = U+00A5 : YEN SIGN {yuan sign}
Ẁ D6 = U+1E80 : LATIN CAPITAL LETTER W WITH GRAVE
¤ E6 = U+00A4 : CURRENCY SIGN
ẁ F6 = U+1E81 : LATIN SMALL LETTER W WITH GRAVE
‹ 87 = U+2039 : SINGLE LEFT-POINTING ANGLE QUOTATION MARK {left pointing single guillemet}
Ẃ 97 = U+1E82 : LATIN CAPITAL LETTER W WITH ACUTE
› AA = U+203A : SINGLE RIGHT-POINTING ANGLE QUOTATION MARK {right pointing single guillemet}
ẃ B7 = U+1E83 : LATIN SMALL LETTER W WITH ACUTE
©︎ C7 = U+00A9 : COPYRIGHT SIGN + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
Ŵ D7 = U+0174 : LATIN CAPITAL LETTER W WITH CIRCUMFLEX
®︎ E7 = U+00A9 : REGISTERED SIGN + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
ŵ F7 = U+0175 : LATIN SMALL LETTER W WITH CIRCUMFLEX
Ï 88 = U+00CF : LATIN CAPITAL LETTER I WITH DIAERESIS
Ÿ 98 = U+0178 : LATIN CAPITAL LETTER Y WITH DIAERESIS
ï A8 = U+00EF : LATIN SMALL LETTER I WITH DIAERESIS
ÿ B8 = U+00FF : LATIN SMALL LETTER Y WITH DIAERESIS
Ì C8 = U+00CC : LATIN CAPITAL LETTER I WITH GRAVE
Ỳ D8 = U+1EF2 : LATIN CAPITAL LETTER Y WITH GRAVE
ì E8 = U+00EC : LATIN SMALL LETTER I WITH GRAVE
ỳ F8 = U+1EF3 : LATIN SMALL LETTER Y WITH GRAVE
Í 89 = U+00CD : LATIN CAPITAL LETTER I WITH ACUTE
Ý 99 = U+00DD : LATIN CAPITAL LETTER Y WITH ACUTE
í A9 = U+00ED : LATIN SMALL LETTER I WITH ACUTE
ý B9 = U+00FD : LATIN SMALL LETTER Y WITH ACUTE
Î C9 = U+00CE : LATIN CAPITAL LETTER I WITH CIRCUMFLEX
Ŷ D9 = U+0176 : LATIN CAPITAL LETTER Y WITH CIRCUMFLEX
î E9 = U+00EE : LATIN SMALL LETTER I WITH CIRCUMFLEX
ŷ F9 = U+0177 : LATIN SMALL LETTER Y WITH CIRCUMFLEX
‰ 8A = U+2030 : PER MILLE SIGN {permille, per thousand}
Ž 9A = U+017D : LATIN CAPITAL LETTER Z WITH CARON
‱ AA = U+2031 : PER TEN THOUSAND SIGN {permyriad}
ž BA = U+017E : LATIN SMALL LETTER Z WITH CARON
§ CA = U+00A7 : SECTION SIGN
· DA = U+00B7 : MIDDLE DOT {midpoint (in typography); Georgian comma; Greek middle dot (ano teleia)}
¶ EA = U+00B6 : PILCROW SIGN
± FA = U+00B1 : PLUS-MINUS SIGN
┴ 8B = U+2534 : BOX DRAWINGS LIGHT UP AND HORIZONTAL {Videotex Mosaic DG 23}
├ 9B = U+251C : BOX DRAWINGS LIGHT VERTICAL AND RIGHT {Videotex Mosaic DG 20}
┬ AB = U+252C : BOX DRAWINGS LIGHT DOWN AND HORIZONTAL {Videotex Mosaic DG 22}
┤ BB = U+2524 : BOX DRAWINGS LIGHT VERTICAL AND LEFT {Videotex Mosaic DG 21}
║ CB = U+2551 : BOX DRAWINGS DOUBLE VERTICAL
│ DB = U+2502 : BOX DRAWINGS LIGHT VERTICAL {Videotex Mosaic DG 14}
─ EB = U+2500 : BOX DRAWINGS LIGHT HORIZONTAL {Videotex Mosaic DG 15}
┼ FB = U+253C : BOX DRAWINGS LIGHT VERTICAL AND HORIZONTAL {Videotex Mosaic DG 24}
┐ 8C = U+2510 : BOX DRAWINGS LIGHT DOWN AND LEFT {Videotex Mosaic DG 17}
┘ 9C = U+2518 : BOX DRAWINGS LIGHT UP AND LEFT {Videotex Mosaic DG 19}
└ AC = U+2514 : BOX DRAWINGS LIGHT UP AND RIGHT {Videotex Mosaic DG 18}
┌ BC = U+250C : BOX DRAWINGS LIGHT DOWN AND RIGHT {Videotex Mosaic DG 16}
√︎ CC = U+221A : SQUARE ROOT {radical sign} + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
¹ DC = U+00B9 : SUPERSCRIPT ONE
² EC = U+00B2 : SUPERSCRIPT TWO
³ FC = U+00B3 : SUPERSCRIPT THREE
█︎ 8D = U+2588 : FULL BLOCK {solid} + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
Ñ 9D = U+00D1 : LATIN CAPITAL LETTER N WITH TILDE
░︎ AD = U+2591 : LIGHT SHADE + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
ñ BD = U+00F1 : LATIN SMALL LETTER N WITH TILDE
ª CD = U+00AA : FEMININE ORDINAL INDICATOR
●︎ DD = U+25CF : BLACK CIRCLE + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
º ED = U+00BA : MASCULINE ORDINAL INDICATOR
○︎ FD = U+25CB : WHITE CIRCLE + (U+FE0E : VARIATION SELECTOR-15 [VS15] {text variation selector})
Ö 8E = U+00D6 : LATIN CAPITAL LETTER O WITH DIAERESIS
Õ 9E = U+00D5 : LATIN CAPITAL LETTER O WITH TILDE
ö AE = U+00F6 : LATIN SMALL LETTER O WITH DIAERESIS
õ BE = U+00F5 : LATIN SMALL LETTER O WITH TILDE
Ò CE = U+00D2 : LATIN CAPITAL LETTER O WITH GRAVE
Œ DE = U+0152 : LATIN CAPITAL LIGATURE OE
ò EE = U+00F2 : LATIN SMALL LETTER O WITH GRAVE
œ FE = U+0153 : LATIN SMALL LIGATURE OE {ethel (from Old English eðel)}
Ó 8F = U+00D3 : LATIN CAPITAL LETTER O WITH ACUTE
Ø 9F = U+00D8 : LATIN CAPITAL LETTER O WITH STROKE {o slash}
ó AF = U+00F3 : LATIN SMALL LETTER O WITH ACUTE
ø BF = U+00F8 : LATIN SMALL LETTER O WITH STROKE {o slash}
Ô CF = U+00D4 : LATIN CAPITAL LETTER O WITH CIRCUMFLEX
Ǿ DF = U+01FE : LATIN CAPITAL LETTER O WITH STROKE AND ACUTE
ô EF = U+00F4 : LATIN SMALL LETTER O WITH CIRCUMFLEX
ǿ FF = U+01FF : LATIN SMALL LETTER O WITH STROKE AND ACUTE

Diacritics

Accents

◌́ – acute (Latin: apex) - Take the ASCII upper/lower case letter "A,E,I,O,U,Y,W,Ø", and add 64
◌̀ – grave - Take the ASCII upper/lower letter "A,E,I,O,U,Y,W", add 128 and subtract 1
◌̂ – circumflex - Take the ASCII upper/lower case letter "A,E,I,O,U,Y,W", and add 128
◌̃ – tilde - Take the ASCII upper/lower case letter "A,N,O", add 80 and subtract 1
◌̌ – caron - Take the ASCII upper/lower case letter "S,Z", and add 64

Dots

◌̈ – umlaut or diaeresis - Take the ASCII upper/lower letter "A,E,I,O,U,Y,W", add 64 and subtract 1

Ring

◌̊ – overring - Take the ASCII upper/lower case letter "A", and add 80

Subscript curls

◌̧ – cedilla - Take the ASCII upper/lower case letter "C", and add 64

Overlays

◌̷ - slash - Take the ASCII upper/lower case letter "O,Ó", and add 80

Multiple

◌̷́ - slash with acute - Take the ASCII upper/lower case letter "Ø", and add 64, or take the ASCII upper/lower case letter "Ó" and add 80, or take the ASCII upper/lower case letter "O" and add 144

Ligatures

Æ/æ and Œ/œ - Take the ASCII upper/lower case letter which matches the first letter of the ligature (i.e. "A" or "O"), add 144 and subtract 1

None Latin characters

ẞ/ß - Take the ASCII upper/lower case letter "S", add 128 and subtract 1
Ð/ð - Take the ASCII upper/lower case letter "D", add 128 and subtract 1
Þ/þ - Take the ASCII upper/lower case letter "T", add 128 and subtract 1