Работая уже на экспертном уровне, не редко приходится сталкиваться с архаичными, мало популярными и просто редкими вещами
В такие моменты при достаточно накопленном объеме знаний, начинаешь смотреть на технику, айти, инженерию как... как на биологию. По сути видишь как развивается техника и это не столько складный логический путь, как в какой-нибудь цивилизации, а компромис между разумнодостаточным. У нас никогда не будет столько памяти сколько хотим, столько места, столько времени на разработку, достаточных знаний о будущем, чтобы сделать раз и на века
Вот и герой нашего сегодня обзора как раз такой "CP866"
Зумеры не знают, а так как в девяностые из всего класса только у меня был комп, о котором мне нельзя было рассказывать, то и большая часть миленеалов тоже))
Проблема с кодировкой русских символов была и остается, увы тут мы были не первые и в роли особо догоняющих
То есть у нас были свои кодировки и такие даже видел, но работать не приходилось
А вот файл с кракозяблями и поиск кодировки для оного я нет нет, да досих пор встречаю
Обычно это связано с использованием Windows, где часто применяется кодировка CP866 или Windows-1251, тогда как в Linux обычно используется UTF-8, а в нынешних реалях даже UTF-32.
Прежде чем расскажу про нее, в двух словах как мы до нее докатились
ASCII – базовая кодировка
ASCII – это база-база, самая первая, что стала стандартом кодировки символов, что был массовым. Он предусматривает в своем составе английский алфавит ака латиницу. Состоит из 128 уникальных символов, которых и стало быстро не хватать.
ISO – стандарт, представленный 8 битами. Младшая группа символов здесь представляет собой «базовый» ASCII, а старшая группа отводится под разнообразные языки. По сути использовалась Аски, которую удвоили, добавив в конце еще блок в 8 бит, нужный блок выбирался версией
8859-0 – новый европейский вариант
8859-2 – Восточная Европа
8859-5 – поддержка кириллицы
Идея простая, есть кракозябли и меняешь версию кодировки, пока не совпадет с осознанным тестом
KOI8-R
А вот тут расширенный вариант ASCII. Она предназначается для работы с символами русского алфавита.
Кириллица здесь располагается в верхней части ASCII так, чтобы произношение алфавита соответствовало аналогам английского алфавита в нижней части таблицы. Это значить, что, если убрать в тексте на KOI8 восьмой бит каждого элемента, в итоге получится хорошо читаемая информация, но на английском языке.
За счет такой продуманности и стала популярной, есть для разных языков восточной европы, но по сути всегда видел лишь один
KOI8-R – для русского языка;
CP866
Альтернативная кодировка от IBM. Это вторая попытка использовать символы русского алфавита в компьютерной технике. CP866 – это одна из расширенных версий ASCII.
Здесь первая часть полностью совпадает с базовой версией Аски, а нижняя часть позволяла закодировать дополнительные 128 символов. В них были включены как русские буквы, так и псевдографика.
И вот здесь читатель ты наверное услышал для себя новое слово - псевдографика
По крайней мере я надеюсь на это))
Да-да, в 90-ые и ранние 2000-ые мы рисовали текстом, сам успел на Паскале порисовать
Посмотрите на символы ближе к концу кодировки
Видите?
Думаете их мало?
Как бы не так, до сих пор работает ПО с псевдо-3Д графикой, что сразу уважение берет за тех кто такое писал, такое пишется с нуля и никакой автоматизации
Так относительно недавно я и вспомнил про нее обслуживая терминал управления в ближайшем подмосковье)
Ну и под конец, пара слов о последней, наиболее популярной на всяких вордо документах и вообще в виндовс:
Windows -1251 – это еще одна расширенная версия ASCII. Данный стандарт был разработан корпорацией Microsoft. Появление соответствующей кодировки связано с ростом развития популярности графических операционных систем.
В Windows-1251 была убрана псевдографика. За счет этой особенности образовалась целая новая группа стандартов кодирования, которая выступала расширенной интерпретацией ASCII. Текстовые символы здесь могут быть зашифрованы при помощи всего 1 байта информации.
Из описания сразу понятно, что отрезав и переиспользовав часть кодо-поля будет накладки при не состыковки, иными словами если текст из KOI8-R открыть через 8859 еще можно, то 1251, и уж тем более ее куда более позднее переосмысление 1252 ,невозможно в принцпе
Собственно поэтому и вымерла по факту
Ух, сегодня ударился в ностальгию, но мне можно после такого перерыва))
Всем добра)))

Комментариев нет:
Отправить комментарий