вторник, 7 апреля 2026 г.

Вспоминаем былое: кодировка CP866

 




Работая уже на экспертном уровне, не редко приходится сталкиваться с архаичными, мало популярными и просто редкими вещами

В такие моменты при достаточно накопленном объеме знаний, начинаешь смотреть на технику, айти, инженерию как... как на биологию. По сути видишь как развивается техника и это не столько складный логический путь, как в какой-нибудь цивилизации, а компромис между разумнодостаточным. У нас никогда не будет столько памяти сколько хотим, столько места, столько времени на разработку, достаточных знаний о будущем, чтобы сделать раз и на века

Вот и герой нашего сегодня обзора как раз такой "CP866"

Зумеры не знают, а так как в девяностые из всего класса только у меня был комп, о котором мне нельзя было рассказывать, то и большая часть миленеалов тоже))

Проблема с кодировкой русских символов была и остается, увы тут мы были не первые и в роли особо догоняющих
То есть у нас были свои кодировки и такие даже видел, но работать не приходилось

А вот файл с кракозяблями и поиск кодировки для оного я нет нет, да досих пор встречаю

Обычно это связано с использованием Windows, где часто применяется кодировка CP866 или Windows-1251, тогда как в Linux обычно используется UTF-8, а в нынешних реалях даже UTF-32.

Прежде чем расскажу про нее, в двух словах как мы до нее докатились

ASCII – базовая кодировка
ASCII – это база-база, самая первая, что стала стандартом кодировки символов, что был массовым. Он предусматривает в своем составе английский алфавит ака латиницу. Состоит из 128 уникальных символов, которых и стало быстро не хватать. 

ISO – стандарт, представленный 8 битами. Младшая группа символов здесь представляет собой «базовый» ASCII, а старшая группа отводится под разнообразные языки. По сути использовалась Аски, которую удвоили, добавив в конце еще блок в 8 бит, нужный блок выбирался версией 

8859-0 – новый европейский вариант
8859-2 – Восточная Европа
8859-5 – поддержка кириллицы

Идея простая, есть кракозябли и меняешь версию кодировки, пока не совпадет с осознанным тестом

KOI8-R
А вот тут расширенный вариант ASCII. Она предназначается для работы с символами русского алфавита. 

Кириллица здесь располагается в верхней части ASCII так, чтобы произношение алфавита соответствовало аналогам английского алфавита в нижней части таблицы. Это значить, что, если убрать в тексте на KOI8 восьмой бит каждого элемента, в итоге получится хорошо читаемая информация, но на английском языке.

За счет такой продуманности и стала популярной, есть для разных языков восточной европы, но по сути всегда видел лишь один
KOI8-R – для русского языка;

CP866
Альтернативная кодировка от IBM. Это  вторая попытка использовать символы русского алфавита в компьютерной технике. CP866 – это одна из расширенных версий ASCII.

Здесь первая часть полностью совпадает с базовой версией Аски, а нижняя часть позволяла закодировать дополнительные 128 символов. В них были включены как русские буквы, так и псевдографика.

И вот здесь читатель ты наверное услышал для себя новое слово - псевдографика

По крайней мере я надеюсь на это))

Да-да, в 90-ые и ранние 2000-ые мы рисовали текстом, сам успел на Паскале порисовать

Посмотрите на символы ближе к концу кодировки

Видите?

Думаете их мало?

Как бы не так, до сих пор работает ПО с псевдо-3Д графикой, что сразу уважение берет за тех кто такое писал, такое пишется с нуля и никакой автоматизации

Так относительно недавно я и вспомнил про нее обслуживая терминал управления в ближайшем подмосковье)

Ну и под конец, пара слов о последней, наиболее популярной на всяких вордо документах и вообще в виндовс:

 Windows -1251 – это еще одна расширенная версия ASCII. Данный стандарт был разработан корпорацией Microsoft. Появление соответствующей кодировки связано с ростом развития популярности графических операционных систем.

В Windows-1251 была убрана псевдографика. За счет этой особенности образовалась целая новая группа стандартов кодирования, которая выступала расширенной интерпретацией ASCII. Текстовые символы здесь могут быть зашифрованы при помощи всего 1 байта информации.

Из описания сразу понятно, что отрезав и переиспользовав часть кодо-поля будет накладки при не состыковки, иными словами если текст из KOI8-R открыть через 8859 еще можно, то 1251, и уж тем более ее куда более позднее переосмысление 1252 ,невозможно в принцпе 

Собственно поэтому и вымерла по факту

Ух, сегодня ударился в ностальгию, но мне можно после такого перерыва))

Всем добра)))

 






 

 

 

 

 

 

 

 

 

 

 

 

 

 

Комментариев нет:

Отправить комментарий

Вспоминаем былое: кодировка CP866

  Работая уже на экспертном уровне, не редко приходится сталкиваться с архаичными, мало популярными и просто редкими вещами В такие моменты ...