Символы и алфавиты для кодирования информации: %D1%81%D0%B8%D0%Bc%D0%B2%D0%Be%D0%Bb%D1%8B %D0%B8 %D0%B0%D0%Bb%D1%84%D0%B0%D0%B2%D0%B8%D1%82%D1%8B %D0%B4%D0%Bb%D1%8F

Содержание

Примеры кодирования | Практическая информатика

Среди всего разнообразия информации, обрабатываемой на компьютере, значительную часть составляют числовая, текстовая, графическая и аудиоинформация. Познакомимся с некоторыми способами кодирования этих типов информации в ЭВМ.

Кодирование чисел

Существуют два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел.

Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел. В k-разрядной ячейке может храниться 2k различных значений целых чисел.

Чтобы получить внутреннее представление целого положительного числа N, хранящегося в k-разрядном машинном слове, необходимо:

1)  перевести число N в двоичную систему счисления;
2)  полученный результат дополнить слева незначащими нулями до k разрядов.


Пример

Получить внутреннее представление целого числа 1607 в 2-х байтовой ячейке.

Переведем число в двоичную систему: 160710 = 110010001112. Внутреннее представление этого числа в ячейке будет следующим: 0000 0110 0100 0111.

Для записи внутреннего представления целого отрицательного числа (-N) необходимо:

1)  получить внутреннее представление положительного числа N;
2)  обратный код этого числа заменой 0 на 1 и 1 на 0;
3)  полученному числу прибавить 1.


Пример

Получим внутреннее представление целого отрицательного числа -1607. Воспользуемся результатом предыдущего примера и запишем внутреннее представление положительного числа 1607: 0000 0110 0100 0111. Инвертированием получим обратный код: 1111 1001 1011 1000. Добавим единицу: 1111 1001 1011 1001 — это и есть внутреннее двоичное представление числа -1607.

Формат с плавающей точкой использует представление вещественного числа R в виде произведения мантиссы m на основание системы счисления n в некоторой целой степени p, которую называют порядком: R = m * n p.

Представление числа в форме с плавающей точкой неоднозначно. Например, справедливы следующие равенства:

12.345 = 0.0012345 x 104 = 1234.5 x 10-2 = 0.12345 x 102

Чаще всего в ЭВМ используют нормализованное представление числа в форме с плавающей точкой. Мантисса в таком представлении должна удовлетворять условию: 0.1p <= m < 1p. Иначе говоря, мантисса меньше 1 и первая значащая цифра — не ноль (p — основание системы счисления).

В памяти компьютера мантисса представляется как целое число, содержащее только значащие цифры (0 целых и запятая не хранятся), так для числа 12.345 в ячейке памяти, отведенной для хранения мантиссы, будет сохранено число 12345. Для однозначного восстановления исходного числа остается сохранить только его порядок, в данном примере — это 2.

Кодирование текста

Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.

Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 28 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ.

Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов. О кодировании символов русского алфавита рассказывается в главе «Обработка документов».

Кодирование графической информации

В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части — растровую и векторную графику.

Растровые изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информации о его цвете.

Для черно-белого изображения (без полутонов) пиксел может принимать только два значения: белый и черный (светится — не светится), а для его кодирования достаточно одного бита памяти: 1 — белый, 0 — черный.

Пиксел на цветном дисплее может иметь различную окраску, поэтому одного бита на пиксел недостаточно. Для кодирования 4-цветного изображения требуются два бита на пиксел, поскольку два бита могут принимать 4 различных состояния. Может использоваться, например, такой вариант кодировки цветов: 00 — черный, 10 — зеленый, 01 — красный, 11 — коричневый.

На RGB-мониторах все разнообразие цветов получается сочетанием базовых цветов — красного (Red), зеленого (Green), синего (Blue), из которых можно получить 8 основных комбинаций:

RGBцвет
0  0  0  черный
0  0  1  синий
0  1  0  зеленый
0  1  1  голубой
RGBцвет
1  0  0  красный
1  0  1  розовый
1  1  0  коричневый
1  1  1  белый

Разумеется, если иметь возможность управлять интенсивностью (яркостью) свечения базовых цветов, то количество различных вариантов их сочетаний, порождающих разнообразные оттенки, увеличивается. Количество различных цветов — К и количество битов для их кодировки — N связаны между собой простой формулой: 2

N = К.

В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения — линия, прямоугольник, окружность или фрагмент текста — располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т. д.). Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов.

Объекты векторного изображения, в отличии от растровой графики, могут изменять свои размеры без потери качества (при увеличении растрового изображения увеличивается зернистость). Подробнее о графических форматах рассказывается в разделе «Графика на компьютере».

Кодирование звука

Из курса физики вам известно, что звук — это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой — аналоговый — сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел.

Поступим следующим образом. Будем измерять напряжение через равные промежутки времени и записывать полученные значения в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его — аналого-цифровым преобразователем (АЦП).

Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование (для него служит цифро-аналоговый преобразователь — ЦАП), а затем сгладить получившийся ступенчатый сигнал.

Чем выше частота дискретизации (т. е. количество отсчетов за секунду) и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук. Но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения.

Описанный способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но бывают случаи, когда выгодней действовать по-иному.

Человек издавна использует довольно компактный способ представления музыки — нотную запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Фактически, ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. В 1983 г. ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI.

Конечно, такая система кодирования позволяет записать далеко не всякий звук, она годится только для инструментальной музыки. Но есть у нее и неоспоримые преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI-редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии.

Заметим, что существуют и другие, чисто компьютерные, форматы записи музыки. Среди них следует отметить формат MP3, позволяющий с очень большим качеством и степенью сжатия кодировать музыку. При этом вместо 18—20 музыкальных композиций на стандартный компакт-диск (CDROM) помещается около 200. Одна песня занимает примерно 3,5 Mb, что позволяет пользователям сети Интернет легко обмениваться музыкальными композициями.

Кодирование текстовой информации

Представление информации в текстовой форме, сыгравшее огромную роль в развитии человеческой цивилизации, является одним из наиболее универсальных. Обработка текста с помощью компьютера стала доступной уже в 60-е годы прошлого века.

Текстовая информация состоит из набора символов, значит, она изначально дискретна. Поэтому нет необходимости проводить процессы дискретизации и квантования как в случае кодирования графической и звуковой информации.

При кодирование текстовой информации каждому символу ставится в соответствие уникальный десятичный номер в некотором алфавите, представленный в двоичном коде. Такое правило сопоставления кодов и символов алфавита называется кодировкой текста.

Стандарты кодирования.

Первый широко известный стандарт кодирования текста был принят в 1963 году и получил название ASCII (American Standard Code for Information Interchange) – американский стандартный код для обмена информацией). Таблица кодирования содержала символы латинского алфавита, цифры, набор управляющих символов и некоторые знаки препинания.

Таблица 1. Кодировка ASCII

В таблице 1 код ASCII представлен в свернутой шестнадцатеричной форме. Если развернуть в двоичную форму код превращается в семиразрядные двоичные числа (например, код 0D16 (CR) означает возврат каретки (переход к началу строки)).

В кодовой таблице ASCII соблюдается алфавитная последовательность кодировки прописных и строчных букв. Это свойство имеет важное значение для программной обработки символьной информации.

Изначально в стандарте ASCII использовался семиразрядный двоичный код. Всего можно было закодировать 27 = 128 символов. Затем, код ASCII расширили за счет добавления 8-го бита (28 = 256 символов). Первая половина восьмиразрядной кодировки совпадает с ASCII, а во второй, получившей название кодовой страницы (CP – code page), — содержатся представления символов национальных алфавитов и некоторых других знаков. Для русского языка в разных операционных системах используются свои кодовые страницы, например, Windows — CP1251, MS DOS – CP866.

Однобайтные кодировки имеют определенные неудобства, одно из которых недостаточно большое количество кодовых слов для использования одновременно нескольких языков. Для решения этих проблем в 1991 году был разработан шестнадцатиразрядный международный стандарт символьного кодирования Unicode, который позволяет закодировать 216 = 65536 символов.

Более поздние разработки стандарта Unicode за счет более сложной организации кода, при сохранении 16-ти разрядности, позволяют кодировать 1112064 символов. Таким образом, Unicode позволяет использовать в одном тексте символы алфавитов любых языков мира, в том числе и «мертвых».

Кодирование информации

Люди часто пользуются кодированием информации. Например для сохранение секретности военные общаясь по рации пользуются военными кодами.

Технологическая карта урока. Босова. Информатика. 5 класс. ФГОС.
Урок 8. В мире кодов. Способы кодирования информации.

Вам известно что для обозначения количества мы пользуемся цифрами, для обозначения звуков на письме буквами. Можно сказать что цифры и буквы это коды. Одна и тажа информация может быть закодирована по разному.

Например китайские и японские иероглифы являются символами которыми кодируется буква или слово.

кодирование информации иероглифы

В сказках встречаются руны буквы древнего алфавита. Изображались руны ломанными линиями. Само слова «руна» означает тайна.

кодирование информации руны

Человек который умел различать руны и читать их пользовался большим уважением. Считалось что руны могут передавать информацию о прошлом и будущем человека. С помощью рун записывалась секретная информация. Рецепты древних врачей, различные пророчества.

А как кодировались цифры в древнем Риме? В то время люди не знали букв и не умели писать они кодировали числа с помощью палочек.

кодирование информации римские цифры

Кстати один из первых известных методов шифрования носит имя римского императора Юлия Цезаря.

кодирование информации Юлий Цезарь

Этот метод основан на замене каждой буквы зашифрованного текста на другую путем смещения в алфавите от исходной буквы на фиксированное количество символов. Причем алфавит читается по кругу. После буквы «Я» рассматривается «А».

кодирование информации шифр цезаря

Для удобства использования шифра используют два диска разного диаметра с нарисованными по краям алфавитами. Диски поворачиваются так что бы напротив каждой буквы алфавита внешнего диска находись тажа буква малого диска. Теперь если повернуть внутренний диск на несколько символов то получим соответствие между символами внешнего диска и внутреннего. Шифр цезаря.

кодирование информации шифр цезаря диск

Известный английский писатель Джон Толкиен.

кодирование информации Джон Толкиен

Профессор литературы из Оксфорда написал фантастическую трилогию «Властелин колец». Где создал не только языки на которых разговаривают орки, эльфы, гномы, гоблины, но и алфавиты.

кодирование информации Джон Толкиен алфавит

Американский художник Сэмюель Морзе придумал способ кодирования, который приобрел популярность.

кодирование информации Сэмюель Морзе

Буквы кодируются с помощью коротких и удлиненных сигналов, точек и тире.

кодирование информации Азбука Морзе

Такой код использовался в телеграфной связи. Азбука Морзе является первым цифровым способом передачи информации.

Телеграф и радиотелеграф первоначально использовали азбуку Морзе позже стали применять код Бодо.

кодирование информации код Бодо

и ASCII

кодирование информации кодировка ASCII

которые являются более удобными для автоматизации процессов.

Еще один способ кодирования информации — ребус.

кодирование информации ребус

Правила составления ребусов. Название всех предметов читаются в именительном падеже.

Что бы передать информацию её необходимо закодировать согласно природе канала передачи.

В компьютере носителями информации являются электрические или магнитные сигналы, которые могут иметь только два значения: 0 — отключено, нет тока или 1 — включен, есть ток.

С помощью нуля и единицы кодируется любая информация, которую обрабатывает компьютер.

Кодирование — это преобразование информации без изменения её содержания в другой вид с помощью определенного кода.

Код — это набор правил преобразования для кодирования.

Как правило представления сообщения, подбираются так что бы его передача была как можно быстрее и надежней, а его обработка была как можно более удобной для адресата. Одно и тоже сообщение можно кодировать по разному. Одной систем кодирования является азбука. Можно кодировать и звуки одна из таких систем кодирования — ноты. Хранить можно не только текстовую и звуковую информацию, в виде кодов хранятся и изображения. Если рассмотреть рисунок через увеличительное стекло то видно что он состоит из точек. Координаты каждой точки можно запомнить в виде чисел. Цвет каждой точки можно запомнить так же в виде чисел. Такие числа могут храниться в памяти компьютера и передаваться на расстояния.

Для представления и обработки информации в компьютере используют двоичные коды, содержащие только два символа: 0 и 1.

Бит — наименьшая единица двоичного кода.

Байт — последовательность из 8 бит.

Для кодирования различных символах и для их хранения в запоминающихся устройствах компьютера, чаще всего используют американский стандартный код для обмена информацией ASCII.

ASCII — представляет собой стандартную таблицу кодировки знаков.

Измерения объемов информации

Информация отображается символами — байтами. Её объем измеряется количеством байт в сообщении. например текст «Даниил играет в футбол» = 22 байта. Это можно посчитать как количество символов в тексте. Знаки препинания и пробелы тоже символы и их тоже нужно считать.

Для измерения больших объемов информации используются Кило, Мега, Гига и Терабайты.

1 КБ = 1024 байтам.

1 МБ = 1024 КБ

1 ГБ = 1024 МБ

1 ТБ = 1024 ГБ

Люди издавна занимались кодированием информации. Сначала это было закодированные с помощью палочек числа, звуки и буквы потом слова с помощью иероглифов или рун. Затем придумали алфавит. Каждый язык на земле это отдельный способ кодирования информации. Например слово «Книга» на разных языках звучит по разному. Сэмюель Морзе разработал азбуку которую позже назвали в его честь Азбукой Морзе её активно и по сей день пользуются моряки.

В компьютере для передачи информации используют только два числа 1 и 0. С их помощью кодируется текст, графика, звуки. Самая маленькая единица измерения информации это бит. Так же используют байты, килобайты, мегабайты, гигабайты и терабайты.


Бухарбаева Н.А. Кодирование текстовой информации

Бухарбаева Нэркэс Айнуровна
Магнитогорский государственный технический университет имени Г.И. Носова
студентка первого курса группы ИПОб-16-1, направление «Русский язык и литература»

Библиографическая ссылка на статью:
Бухарбаева Н.А. Кодирование текстовой информации // Современные научные исследования и инновации. 2017. № 5 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2017/05/83194 (дата обращения: 30.08.2021).

Актуальность. Внедрение информационных технологий отразилось на технологии документооборота внутри организаций и между ними, и между отдельными пользователями. Большое значение в данной сфере приобретает электронный документооборот, позволяющий отказаться от бумажных носителей (снизить их долю в общем потоке) и осуществлять обмен документами между субъектами в электронном виде. Преимущества данного подхода очевидны: снижение затрат на обработку и хранение документов и их быстрый поиск. Однако отказ от бумажного документооборота поставил ряд проблем, связанных с обеспечением целостности передаваемого документа и аутентификации подлинности его автора.

Цель работы. Дать основные понятия по теме «Кодирование текстовой информации», отразить возможности злоумышленника при реализации угроз, направленных на нарушение целостности передаваемых сообщений, предложить пути решения проблемы.

Что такое код? Код – это система условных знаков для представления информации.

Кодирование – это представление информации в удобном альтернативном виде с помощью некоторого кода для передачи, обработки или хранения, а декодирование – это процесс восстановления первоначальной формы представления информации.

Персональный компьютер обрабатывает числовую, текстовую, графическую, звуковую и видео – информацию. В компьютере она представлена в двоичном коде, так если  используется алфавит в два символа – 0 и 1. В двоичном коде ее легче всего представить как электрический импульс, его отсутствие (0) и присутствие (1). Подобный вид кодирования называется двоичным.

Элементы кодируемой информации:

— Буквы, слова и фразы естественного языка;

— Знаки препинания, арифметические и логические операции, и т.д;

— Числа;

— Наследственная информация и т.д.

Сами знаки операций и операторы сравнения – это кодовые обозначения, представляющие собой буквы и сочетания букв, числа, графические обозначения, электромагнитные импульсы, световые и звуковые сигналы и т.д.

Способы кодирования: числовой (с помощью чисел), символьный (с помощью символов алфавита исходного текста) и графический (с помощью рисунков, значков)

Цели кодирования:

А) Удобство хранения, обработки, передачи информации и обмена ей между субъектами;

Б) Наглядность отображения;

В) Идентификация объектов и субъектов;

Г) Сокрытие секретной информации.

Различают одноуровневое и многоуровневое кодирование информации. Одноуровневое кодирование–это световые сигналы светофора. Многоуровневое- представление визуального (графического) образа в виде файла фотографии. Bначале визуальная картинка разбивается на пиксели, каждая отдельная часть картинки кодируется элементарным элементом, а элемент, в свою очередь, кодируется в виде набора цветов (RGB: англ.red – красный, green – зеленый, blue – синий) соответствующей интенсивностью, которая представляется в виде числового значения (наборы этих чисел кодируются в форматах jpeg, png и т.д.). Наконец, итоговые числа кодируются в виде электромагнитных сигналов для передачи по каналам связи или областей. Сами числа при программной обработке представляются в соответствии с принятой системой кодирования чисел.

Различают обратимое и необратимое кодирование. При обратимом можно однозначно восстановить сообщение без потери качества, например, кодирование с помощью азбуки Морзе.I = 28 = 256. Для кодирования текстовой информации используют алфавит мощностью в 256 символов.

Принцип данного кодирования заключается в том, что каждому символу (букве, знаку) соответствует свой двоичный код от 00000000 до 11111111.

Для кодирования букв российского алфавита есть пять разных кодировочных таблиц (КОИ – 8, СР1251, СР866, Мас, ISO). Тексты, закодированные одной таблицей, не будут корректно отображаться в другой кодировке:

Для одного двоичного кода в разных таблицах соответствуют разные символы:

Таблица 1 – Соответствие разных символов двоичному коду

Двоичный кодДесятичный кодКОИ8СР1251СР866МасISO
11000010194БВТ

Перекодированием текстовых документов занимаются программы, встроенные в текстовые редакторы и процессоры. С начала 1997 года Microsoft Office поддерживает новую кодировку Unicode, в ней можно закодировать не 256, а 655369 символов (под каждый символ начали отводить 2 байта).

Биты и байты. Цифра, воспринимаемая машиной, таит в себе некоторое количество информации. Оно равно одному биту. Это касается каждой единицы и каждого нуля, которые составляют ту или иную последовательность зашифрованной информации. Соответственно, количество информации в любом случае можно определить, просто зная количество символов в последовательности двоичного кода. Они будут численно равны между собой. 2 цифры в коде несут в себе информацию объемом в 2 бита, 10 цифр – 10 бит и так далее. Принцип определения информационного объема:

 

Рисунок 1 – определение информационного объема 

Проблема целостности информации. Проблема целостности информации с момента ее появления до современности прошла довольно долгий путь. Изначально существовало два способа решения задачи: использование криптографических методов защиты информации и хранения данных и программно-техническое разграничение доступа к данным и ресурсам вычислительных систем. Стоит учесть, что в начале 80–х годов компьютерные системы были слабо распространены, технологии глобальных и локальных вычислительных сетей находились на начальной стадии своего развития, и указанные задачи удавалось достаточно успешно решать.

Современные методы обработки, передачи и накопления информационной безопасности способствовали появлению угроз, связанных с возможностью потери, искажения и раскрытия данных, адресованных или принадлежащих другим пользователям. Поэтому обеспечение целостности информации является одним из ведущих направлений развития ИТ [1, с.10].

Под информационной безопасностью понимают  защищенность информации от незаконного ее потребления: ознакомления, преобразования и уничтожения.

Различают естественные (не зависящие от деятельности человека) и искусственные (вызванные человеческой деятельностью) угрозы информационной безопасности. В зависимости от их мотивов искусственные подразделяют на непреднамеренные (случайные) и преднамеренные (умышленные).

Гарантия того, что сообщение не было изменено в процессе его передачи, необходима и для отправителя, и для получателя электронного сообщения. Получатель должен иметь возможность распознать факт искажений, внесенных в документ.

Проблема аутентификации подлинности автора сообщения заключается в обеспечении гарантии того, что никакой субъект не сможет подписаться ни чьим другим именем, кроме своего. В обычном бумажном документообороте информация в документе и рукописная подпись автора жестко связана с физическим носителем (бумагой). Для электронного же документооборота жесткая связь информации с физическим носителем отсутствует.

Рассмотрим методы взлома компьютерных систем, все попытки подразделяют на 3 группы:
1. Атаки на уровне операционной системы: кража пароля, сканирование жестких дисков компьютера, сборка “мусора” (получение доступа к удаленным объектам в “мусорной” корзине), запуск программы от имени пользователя, модификация кода или данных подсистем и т.д.
2. Атака на уровне систем управления базами данных: 2 сценария, в первом случае результаты арифметических операций над числовыми полями СУБД округляются в меньшую сторону, а разница суммируется в другой записи СУБД, во втором случае хакер получает доступ к статистическим данным
3. Атаки на уровне сетевого программного обеспечения. Сетевое программное обеспечение (СПО) наиболее уязвимо: перехват сообщений на маршрутизаторе, создание ложного маршрутизатора, навязывание сообщений, отказ в обслуживании

Перечислим возможности злоумышленника при реализации угроз, направленных на нарушение целостности передаваемых сообщений и подлинности их авторства:

А) Активный перехват. Нарушитель перехватывает передаваемые сообщения, изменяя их.

Б) Маскарад. Нарушитель посылает документ абоненту B, подписываясь именем абонента A.

В) Ренегатство. Абонент А заявляет, что не посылал сообщения абоненту B, хотя на самом деле посылал. В этом случае абонент А – злоумышленник.

Г) Подмена. Абонент B изменяет/формирует новый документ, заявляя, что получил его от абонента A. Недобросовестный пользователь – получатель сообщения B.

Для анализа целостности информации используется подход, основанный на вычислении контрольной суммы переданного сообщения и функции хэширования (алгоритма, позволяющего сообщение любой длины представить в виде короткого значения фиксированной длины).

Hа всех этапах жизненного цикла существует угроза ЦИ (целостности информации):

При обработке информации нарушение ЦИ возникает вследствие технических неисправностей, алгоритмических и программных ошибок, ошибок и деструктивных действий обслуживающего персонала, внешнего вмешательства, действия разрушающих и вредоносных программ (вирусов, червей).

В процессе передачи информации – различного рода помехи как естественного, так и искусственного происхождения. Возможно искажение, уничтожение и перехват информации.

В процессе хранения основная угроза – несанкционированный доступ с целью модификации информации, вредоносные программы (вирусы, черви, логические бомбы) и технические неисправности.

В процессе старения – утеря технологий, способных воспроизвести информацию, и физическое старение носителей информации.

Угрозы ЦИ возникают на протяжении всего жизненного цикла информации с момента ее появления до начала утилизации.

Мероприятия по предотвращению утечки информации по техническим каналам включают в себя обследования помещений на предмет обнаружения подслушивающих устройств, а также оценку защищенности помещений от возможной утечки информации с использованием дистанционных методов перехвата и исследование ТС, где ведутся конфиденциальные разговоры[2, с.15].

Обеспечение целостности информации. Для обеспечения ЦИ необходимым условием является наличие высоконадежных технических средств (ТС), включающие в себя аппаратную и/или программную составляющие, и различные программные методы, значительно расширяющие возможности по обеспечению безопасности хранящейся информации [3, с.150]. ТС обеспечивает высокую отказоустойчивость и защиту информации от возможных угроз. K ним относят средства защиты от электромагнитного импульса (ЭМИ). Наиболее эффективный метод уменьшения интенсивности ЭМИ – это экранирование – размещение оборудования в электропроводящем корпусе, который препятствует проникновению электромагнитного поля.

К организационным методам относят разграничение доступа, организующий доступ к информации к используемому оборудованию и предполагающий достаточно большой перечень мероприятий, начиная от подбора сотрудников и заканчивая работой с техникой и документами. Среди них выделяют технологии защиты,обработки и хранения документов, аттестацию помещений и рабочих зон, порядок защиты информации от случайных/несанкционированных действий. Особое внимания уделяют защите операционных систем (ОС), обеспечивающих функционирование практически всех составляющих системы. Наиболее действенный механизм разграничения доступа для ОС – изолированная программная среда (ИПС). Устойчивость ИКС к различным разрушающим и вредоносным программам повышает ИПС, обеспечивая целостность информации.

Антивирусная защита. В настоящее время под компьютерным вирусом принято понимать программный код, обладающий способностью создавать собственные копии и имеющие механизмы, внедряющие эти копии в исполняемые объекты вычислительной системы [1, с.354]. Вредоносные программы (вирусы) имеют множество видов и типов, отличаясь между собой лишь способами воздействия на различные файлы, размещением в памяти ЭВМ или программах, объектами воздействия. Главное свойство вирусов, выделяющее их среди множества программ и делающее наиболее опасным, это способность к размножению.

ЦИ обеспечивает использование антивирусных программ, однако ни одна из них не гарантирует обнаружение неизвестного вируса. Применяемые эвристические сканеры не всегда дают правильный диагноз. Пример подобных ошибок – две антивирусные программы, запущенные на одном компьютере: файлы одного антивируса принимаются за вредоносную программу другим антивирусом.

Использование локальных сетей, не имеющих связи с интернетом – лучший способ защиты от вирусов. При этом необходимо жестко контролировать различные носители информации с прикладными программами, с помощью которых можно занести вирус [4, с. 231].

Помехоустойчивое кодирование. Наиболее уязвимой информация бывает в процессе ее передачи. Разграничение доступа снимает многие угрозы, но она невозможна при использовании в канале

связи беспроводных линий. Информация наиболее уязвима именно на таких участках ИКС. Обеспечение ЦИ достигается засчет уменьшения объема передаваемой информации. Это уменьшение можно достичь за счет оптимального кодирования источника.

Метод динамического сжатия. При таком подходе структура сжатого сообщения включает в себя словарь и сжатую информацию. Однако, если в словаре при передаче или хранении есть ошибка, то возникает эффект размножения ошибок, приводящий к информационному искажению/уничтожению.

Стеганография. С этим термином знаком тот,кто занимается криптографией. Выделяют три направления стеганографии: сокрытие данных, цифровые водяные знаки и заголовки. При скрытой передаче информации одновременно с обеспечением конфиденциальности  решается и вопрос обеспечения ЦИ. Нельзя изменить того, чего не видишь – главный аргумент использования стеганографии. Ее главный недостаток – больший объем контейнера. Но это можно нивелировать, передавая в качестве контейнера полезную информацию, не критичную к ЦИ.

Резервирование используется при передаче и хранении информации. При передаче возможен многократный повтор сообщения в одно направление либо его рассылка во все возможные направления. Данный подход можно рассматривать как один из методов ПКИ. При хранении идея резервирования достаточно проста – создание копий полученных файлов и их хранение отдельно от первоначальных документов. Зачастую такие хранилища создаются в географически разнесенных местах.

Недостаток резервирования – возможность ее несанкционированного снятия, т.к. информация, располагаемая на внешних устройствах хранения, является незащищенной.

Заключение. Любая информация, выводящаяся на монитор компьютера, прежде чем там появиться, подвергается кодированию, которое заключается в переводе информации на машинный язык. Он представляет собой последовательность электрических импульсов – нулей и единиц. Для кодирования различных символов существуют отдельные таблицы.

К методам обеспечения ЦИ в ИК Сотносят обеспечение надежности ТС, разграничение доступа, стеганография (скрытие факта передачи), помехоустойчивое кодирование, антивирусная защита, сжатие данных и резервирование.

В каждом из рассмотренных методов выделены наиболее существенные угрозы ЦИ и показаны возможные пути их устранения. Практическая реализация этих методов зависит от угроз, которые возникают в процессе жизненного цикла информации, и вида используемой информации.Обеспечение ЦИ можно достичь только комплексным использованием рассмотренных методов.


Библиографический список
  1. Шаньгин, В.Ф. Информационная безопасность компьютерных систем и сетей: учеб. пособие. — М.: ИД «ФОРУМ»: ИНФРА-М, 2011. — 416с.
  2. Баранов, А.П. Проблемы обеспечения информационной безопасности в информационно-телекоммуникационной систем специального назначения и пути их решения // Информационное общество. —   1997. вып.1. —  с. 13-17.
  3. Андрианов, В.И. «Шпионские штучки» и устройства для защиты объектов и информации: справ. пособие / В.И. Андрианов, В.А. Бородин, А.В. Соколов. С- Пб.: Лань, 1996. – 272с.
  4. Баранов, А.П. Проблемы обеспечения информационной безопасности в информационно-телекоммуникационной систем специального назначения и пути их решения // Информационное общество. —   1997. вып.1. —  с. 13-17.


Количество просмотров публикации: Please wait

Все статьи автора «Бухарбаева Нэркэс Айнуровна»

Любые числа (в определенных пределах) в памяти компьютера кодируются числами двоичной системы счисления. Для этого существуют простые и понятные правила перевода. Однако на сегодняшний день компьютер используется куда шире, чем в роли исполнителя трудоемких вычислений. Например, в памяти ЭВМ хранятся текстовая и мультимедийная информация. Поэтому возникает первый вопрос:

Как в памяти компьютера хранятся символы (буквы)?

Каждая буква принадлежит определенному алфавиту, в котором символы следуют друг за другом и, следовательно, могут быть пронумерованы последовательными целыми числами. Каждой букве можно сопоставить целое положительное число и назвать его кодом символа. Именно этот код будет храниться в памяти компьютера, а при выводе на экран или бумагу «преобразовываться» в соответствующий ему символ. Чтобы отличить представление чисел от представления символов в памяти компьютера, приходится также хранить информацию о том, какие именно данные закодированы в конкретной области памяти.

Соответствие букв определенного алфавита с числами-кодами формирует так называемую таблицу кодирования. Другими словами, каждый символ конкретного алфавита имеет свой числовой код в соответствии с определенной таблицей кодирования.

Однако алфавитов в мире очень много (английский, русский, китайский и др.). Поэтому следующий вопрос:

Как закодировать все используемые на компьютере алфавиты?

Для ответа на этот вопрос пойдем историческим путем.

В 60-х годах XX века в американском национальном институте стандартизации (ANSI) была разработана таблица кодирования символов, которая впоследствии была использована во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией). Чуть позже появилась расширенная версия ASCII.

В соответствие с таблицей кодирования ASCII для представления одного символа выделяется 1 байт (8 бит). Набор из 8 ячеек может принять 28 = 256 различных значений. Первые 128 значений (от 0 до 127) постоянны и формируют так называемую основную часть таблицы, куда входят десятичные цифры, буквы латинского алфавита (заглавные и строчные), знаки препинания (точка, запятая, скобки и др.), а также пробел и различные служебные символы (табуляция, перевод строки и др.). Значения от 128 до 255 формируют дополнительную часть таблицы, где принято кодировать символы национальных алфавитов.

Поскольку национальных алфавитов огромное множество, то расширенные ASCII-таблицы существуют во множестве вариантов. Даже для русского языка существуют несколько таблиц кодирования (распространены Windows-1251 и Koi8-r). Все это создает дополнительные трудности. Например, мы отправляем письмо, написанное в одной кодировке, а получатель пытается прочитать ее в другой. В результате видит кракозябры. Поэтому читающему требуется применить для текста другую таблицу кодирования.

Есть и другая проблема. В алфавитах некоторых языков слишком много символов и они не помещаются в отведенные им позиции с 128 до 255 однобайтовой кодировки.

Третья проблема — что делать, если в тексте используется несколько языков (например, русский, английский и французский)? Нельзя же использовать две таблицы сразу …

Чтобы решить эти проблемы одним разом была разработана кодировка Unicode.

Стандарт кодирования символов Unicode

Для решения вышеизложенных проблем в начале 90-х был разработан стандарт кодирования символов, получивший название Unicode. Данный стандарт позволяет использовать в тексте почти любые языки и символы.

В Unicode для кодирования символов предоставляется 31 бит (4 байта за вычетом одного бита). Количество возможных комбинаций дает запредельное число: 231 = 2 147 483 684 (т.е. более двух миллиардов). Поэтому Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и иные специальные символы. Однако информационная емкость 31-битового Unicode все равно остается слишком большой. Поэтому чаще используется сокращенная 16-битовая версия (216 = 65 536 значений), где кодируются все современные алфавиты.

В Unicode первые 128 кодов совпадают с таблицей ASCII.

Презентация по информатике кодирование информации. Кодирование информации













1 из 12

№ слайда 1

Описание слайда:

№ слайда 2

Описание слайда:

Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными языками были разработаны формальные языки для профессионального применения их в какой-либо сфере. Представление информации с помощью какого-либо языка часто называют кодированием. Код — набор символов (условных обозначений) для представления информации. Код — система условных знаков (символов) для передачи, обработки и хранения информации(со общения). Кодирование — процесс представления информации (сообщения) в виде кода. Все множество символов, используемых для кодирования, называется алфавитом кодирования. Декодирование- процесс обратного преобразования кода к форме исходной символьной системы, т.е. получение исходного сообщения. В более широком смысле декодирование — это процесс восстановления содержания закодированного сообщения. При таком подходе процесс записи текста с помощью русского алфавита можно рассматривать в качестве кодирования, а его чтение — это декодирование.

№ слайда 3

Описание слайда:

№ слайда 4

Описание слайда:

№ слайда 5

Описание слайда:

Двоичное кодирование в компьютере Вся информация, которую обрабатывает компьютер должна быть представлена двоичным кодом с помощью двух цифр: 0 и 1. Эти два символа принято называть двоичными цифрами или битами. С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса: кодирование и декодирование. Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код. Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

№ слайда 6

Описание слайда:

Почему двоичное кодирование С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента: 0 – отсутствие электрического сигнала; 1 – наличие электрического сигнала. Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.

№ слайда 7

Описание слайда:

Двоичное кодирование текстовой информации Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации. Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).

№ слайда 10

Описание слайда:

Кодирование звука Использование компьютера для обработки звука началось позднее, нежели чисел, текстов и графики. Звук – волна с непрерывно изменяющейся амплитудой и частотой. Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон. Звуковые сигналы в окружающем нас мире необычайно разнообразны. Сложные непрерывные сигналы можно с достаточной точностью представлять в виде суммы некоторого числа простейших синусоидальных колебаний. Причем каждое слагаемое, то есть каждая синусоида, может быть точно задана некоторым набором числовых параметров – амплитуды, фазы и частоты, которые можно рассматривать как код звука в некоторый момент времени.

Описание слайда:

Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации. Частота дискретизации – количество измерений уровня сигнала в единицу времени. Количество уровней громкости определяет глубину кодирования. Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. При этом количество уровней громкости равно N = 2I = 216 = 65536.

Чтобы пользоваться предварительным просмотром презентаций создайте себе аккаунт (учетную запись) Google и войдите в него: https://accounts.google.com


Подписи к слайдам:

Кодирование информации. Двоичное кодирование информации. Представление числовой информации с помощью систем счисления.

Языки Естественные: русский, английский, китайский Формальные: системы счисления, язык алгебры, языки программирования

Определение: Представление информации может осуществляться с помощью языков, которые являются знаковыми системами. Каждая знаковая система строится на основе определенного алфавита и правил выполнения операций над знаками.

Определение: Кодирование – это операция преобразования знаков или групп знаков одной знаковой системы в знаки или группу знаков другой знаковой системы. Декодирования – это обратный процесс.

1 знаковая система 2 знаковая система О ▲ Л ☼ М К □ Что здесь зашифровано? ▲ ☼ ▲ □ ▲ Пример 1.

Приведите примеры кодирования и декодирования

Двоичное кодирование. Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр 0 и 1. Каждая цифра машинного двоичного кода несет количество информации в 1 бит.

Это знаковая система, в которой числа записываются по определенным правилам с помощью символов некоторого алфавита, называемых цифрами. Системы счисления:

Системы счисления Позиционные Непозиционные

Непозиционная система счисления: Значение цифры не зависит от ее положения в числе

Римская непозиционная система: I(1), V(5), X(10), L(50), C(100), D(500), M(1000). XXX = 30 MCDXXXIV = ?

Позиционная система счисления: Значение цифры зависит от ее положения. Основание системы равно количеству цифр в ее алфавите.

Системы счисления Алфавит Двоичная 0, 1 Восьмеричная 0, 1, 2, 3, 4, 5, 6, 7 Десятичная 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Шестнадцатеричная 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, А(10), В(11), С(12), D(13), E(14), F(15)

Десятичная система счисления: 555 5 единиц 5 десятков 5 сотен 555=5*10 2 +5*10 1 +5*10 0 555,5=5*10 2 +5*10 1 +5*10 0 +5*10 -1 А 10 =а n-1 *10 n-1 +…+a 0 *10 0 +a -1 *10 -1 +…

Двоичная система счисления: Числа в двоичной системе записываются в виде суммы степеней с основанием 2 с коэффициентами, в качестве которых выступают цифры о или 1. Например, A 2 =1*2 2 +0*2 1 +1*2 0 +0*2 -1 +1*2 -2 A 2 =101,01 2 A 2 =a n-1 *2 n-1 +…+a 0 *2 0 +a -1 *2 -1 +…


По теме: методические разработки, презентации и конспекты

Информация. Кодирование информации. Представление чисел с плавающей запятой.

Конспект урока профильного 10 класса. По типу относится к занятию изучения и первичного закрепления новых знаний и способов деятельности….

Кодирование информации. Числовая информация. 2 класс

Презентация к уроку «Числовая информация» по учебнику Матвеевой Н.В. 2 класс. Презентация также содержит тест для самопроверки знаний учащихся по теме «Кодирование информации»….

Презентация к уроку в 5 классе. Тема урока «Способы кодирования информации». Учебник Л.Л. Босовой, А.Ю. Босовой второе издание, 2014 г. Ключевые понятия: кодирование, способы кодирования, выбор способа кодирования, декодирование информации, графический, числовой, символьный способы кодирования информации, После изучения нового материала, предлагаются задания для закрепления основных понятий.

Просмотр содержимого документа


«Презентация к уроку «Способы кодирования информации»»

Повторим

1. Что такое код?

2. Что называется кодированием информации?

3. Как кодируется информация в памяти компьютера?

4. Приведите примеры кодов, которые прочно вошли в нашу жизнь.


Одна и та же информация может быть представлена разными кодами

  • Разговорные языки ( всего более 2000 языков )






  • Специальные языки ( азбука Морзе, флажковая азбука)

Способ кодирования информации зависит от цели, ради которой осуществляется кодирование

Такими целями могут быть:

  • сокращение записи;
  • засекречивание (шифровка) информации;
  • удобство обработки информации и.т.д

графический

числовой

символьный

Символы алфавита


Графический — с помощью рисунков

и значков

Числовой — с помощью чисел

Символьный — с помощью символов

того же алфавита, что и исходный текст


Кодирование

Декодирование


Самое главное

  • Выбор способа кодирования информации зависит от цели, ради которой оно осуществляется.
  • Существуют при способа кодирования информации: графический, числовой, символьный.
  • Кодирование это переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
  • Декодирование это действия по восстановлению первоначальной формы представления информации. Для декодирования нужно знать код.

ГОЛОВОЛОМКА.

Каждой букве алфавита поставлена в соответствие пара чисел: первое число — номер столбца, а второе — номер строки. Пользуясь данной таблицей, расшифруй головоломку: Первое слово: (3,1), (6,3), (4,2), (5,1), (5,3) Второе слово: (1,1), (5,1), (5,1), (2,2), (5,3), (10,3), (4,1), (1,3), (4,2)

Ответ на головоломку запиши в тетрадь



Нумерованный русский алфавит

А 1 Б 2 В 3 Г 4 Д 5 Е 6 Ё 7 Ж 8 З 9 И 10 Й 11 К 12 Л 13 М 14 Н 15 О 16 П 17 Р 18 С 19 Т 20 У 21 Ф 22 Х 23 Ц 24 Ч 25 Ш 26 Щ 27 Ъ 28 Ы 29 Ь 30 Э 31 Ю 32 Я 33

Кодирование информации — перевод информации из обычного, общепринятого формата в вид, который доступен для восприятия только определенной группы людей или вообще только для электронных вычислительных машин.

Существует несколько видов кодирования информации, в зависимости от того, что кодируется:

Графические файлы

Числа кодируются в двузначной системе, то есть в данной системе имеется всего две цифры 1 и 0. Таким образом, цифре 1 в десятичной системе соответствует та же цифра в двоичной, а вот цифре два уже число 10, цифре 3 — 11, 4 -100 и так далее.

Так как байт содержит всего восемь бит, которые могу записать в себя по одному символу пустые ячейки, кроме первой слева (она обозначает знак числа: «1» обозначает «-», а «0», соответственно, «+») всегда дополняются нулями.

Используя правило предыдущего слайда, посмотрим, примеры записи цифр и чисел при переводе из десятичной системы исчисления в двоичную. Очень важно не забывать, что первый слева символ отображает знак.

Если вы хотите записать число в двоичной системе, которое будет занимать более сими символов, тогда необходимо использование двух байтов. Так, число «1» при использовании двух байтов представиться в виде «0000000000000001». Также возможно использовании трех и более байтов.

При кодировании текста используется общепринятая американская система ASCII (American Standard Code for Information Interchange). Она представляет из себя таблицу из двух слопцов, первый из которых представлен кодами от 0 до 127, а также является полностью идентичным для всех моделей компьютеров, а второй столбец практически всегда различен. На данный момент распространена кодировка, имеющая 65535 символов.

Суть кодирование графической информации, в том, чтобы присвоить какому-либо цвету или оттенку, свой уникальный, не повторяющийся код, который будет, при упоминании, выводить данный цвет. Например, белый цвет представлен кодом 255 255 255.

Как можно понять из примера, приведенного на предыдущем слайде, для записи кода цвета используется 3 байта памяти. Как известно, все оттенки образовываются при помощи трех цветов: красного, синего и зеленного. Так первый байт указывает на интенсивность красного, второй — зеленого, а третий — синего. Следовательно, черный имеет код 0 0 0, так как это обозначает полное отсутствие цветов.

Ранними примерами кодировки информации служит азбука Морзе и древнее Египетские иероглифы.

Кодировка — это перевод информации из одного вида в более удобный для пользователя на данный момент.

Без кодировки было бы невозможно использование никаких электронно-вычислительных машин.

1 слайд

2 слайд

Двоичный код Вся информация, которою обработает компьютер, должна быть представлена двоичным кодом с помощью двух цифр – 0 и 1. Эти два символа 0 и 1 принято называть битами (от англ. binary digit – двоичный знак).

3 слайд

Кодирование и декодирование Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код. Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

4 слайд

Способы кодирования Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.

5 слайд

Представление чисел Для записи информации о количестве объектов используются числа. Числа записываются с использование особых знаковых систем, которые называют системами счисления. Система счисления – совокупность приемов и правил записи чисел с помощью определенного набора символов.

6 слайд

Позиционные и непозиционные системы счисления Все системы счисления делятся на две большие группы: Количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра. 0,7 7 70 Количественное значение цифры числа не зависит от того, в каком месте (позиции или разряде) записана та или иная цифра. XIX ПОЗИЦИОННЫЕ НЕПОЗИЦИОННЫЕ

7 слайд

Римская непозиционная система счисления Самой распространенной из непозиционных систем счисления является римская. В качестве цифр используются: I(1), V(5), X(10), L(50), C(100), D(500), M(1000). Величина числа определяется как сумма или разность цифр в числе. MCMXCVIII = 1000+(1000-100)+(100-10)+5+1+1+1 = 1998

8 слайд

Позиционные системы счисления Первая позиционная система счисления была придумана еще в Древнем Вавилоне, причем вавилонская нумерация была шестидесятеричная, т.е. в ней использовалось шестьдесят цифр! В XIX веке довольно широкое распространение получила двенадцатеричная система счисления. В настоящее время наиболее распространены десятичная, двоичная, восьмеричная и шестнадцатеричная системы счисления.

9 слайд

Основание системы счисления Количество различных символов, используемых для изображения числа в позиционных системах счисления, называется основанием системы счисления. Система счисления Основание Алфавит цифр Десятичная 10 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Двоичная 2 0, 1 Восьмеричная 8 0, 1, 2, 3, 4, 5, 6, 7 Шестнадцатеричная 16 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,A, B, C, D, E, F

10 слайд

Соответствие систем счисления Десятичная 8 9 10 11 12 13 14 15 16 Двоичная 1000 1001 1010 1011 1100 1101 1110 1111 10000 Восьмеричная 10 11 12 13 14 15 16 17 20 Шестнадцатеричная 8 9 A B C D E F 10 Десятичная 0 1 2 3 4 5 6 7 Двоичная 0 1 10 11 100 101 110 111 Восьмеричная 0 1 2 3 4 5 6 7 Шестнадцатеричная 0 1 2 3 4 5 6 7

11 слайд

Двоичное кодирование текстовой информации Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации. Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).

12 слайд

Двоичное кодирование текстовой информации Для кодирования одного символа требуется один байт информации. Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. 28=256

13 слайд

Двоичное кодирование текстовой информации Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255). Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.

14 слайд

Таблица кодировки Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки. Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена.

15 слайд

Таблица кодировки ASCII Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита. В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO). В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536) различных символов.

16 слайд

17 слайд

18 слайд

Обратите внимание! Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код. Возьмем число 57. При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII. В двоичной системе это – 00110101 00110111. При использовании в вычислениях код этого числа будет получен по правилам перевода в двоичную систему и получим – 00111001. !

19 слайд

Кодирование графической информации Создавать и хранить графические объекты в компьютере можно двумя способами – как растровое или как векторное изображение. Для каждого типа изображений используется свой способ кодирования. ИЗОБРАЖЕНИЯ РАСТРОВЫЕ ВЕКТОРНЫЕ

20 слайд

Кодирование растровых изображений Растровое изображение представляет собой совокупность точек (пикселей) разных цветов. Для черно-белого изображения информационный объем одной точки равен одному биту (либо черная, либо белая – либо 1, либо 0). Для четырех цветного – 2 бита. Для 8 цветов необходимо – 3 бита. Для 16 цветов – 4 бита. Для 256 цветов – 8 бит (1 байт). Цветное изображение на экране монитора формируется за счет смешивания трех базовых цветов: красного, зеленого, синего. Т.н. модель RGB. Для получения богатой палитры базовым цветам могут быть заданы различные интенсивности. 4 294 967 296 цветов (True Color) – 32 бита (4 байта).

21 слайд

Кодирование векторных изображений Векторное изображение представляет собой совокупность графических примитивов (точка, отрезок, эллипс…). Каждый примитив описывается математическими формулами. Кодирование зависти от прикладной среды. эллипс прямоугольник кривая

22 слайд

Двоичное кодирование звука Звук – волна с непрерывно изменяющейся амплитудой и частотой. Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон. В процессе кодирования звукового сигнала производится его временная дискретизация – непрерывная волна разбивается на отдельные маленькие временные участки. Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.

Решение задач на тему «кодирование текстовой информации» типы задач

Решение задач на тему «Кодирование текстовой информации»

Типы задач:

  1. Объем памяти, занимаемый текстом.

  2. Кодирование (декодирование) текстовой информации.

  3. Внутреннее представление текста в компьютере.

  1. Объем памяти, занимаемый текстом.

Методические рекомендации:

В задачах такого типа используются понятия:

  • алфавит,

  • мощность алфавита

  • символ,

  • единицы измерения информации (бит, байт и др.)

Для представления текстовой (символьной) информации в компьютере используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации (28 =256). 8 бит =1 байту, следовательно, двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Уровень «3»

1. Сколько бит памяти займет слово «Микропроцессор»?([1], c.131, пример 1)

Решение:

Слово состоит из 14 букв. Каждая буква – символ компьютерного алфавита, занимает 1 байт памяти. Слово занимает 14 байт =14*8=112 бит памяти.

Ответ: 112 бит

2. Текст занимает 0, 25 Кбайт памяти компьютера. Сколько символов содержит этот текст? ([1], c.133, №31)

Решение:

Переведем Кб в байты: 0, 25 Кб * 1024 =256 байт. Так как текст занимает объем 256 байт, а каждый символ – 1 байт, то в тексте 256 символов.

Ответ: 256 символов

3. Текст занимает полных 5 страниц. На каждой странице размещается 30 строк по 70 символов в строке. Какой объем оперативной памяти (в байтах) займет этот текст? ([1], c.133, №32)

Решение:

30*70*5 = 10500 символов в тексте на 5 страницах. Текст займет 10500 байт оперативной памяти.

Ответ: 10500 байт

4. Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения из пушкинского четверостишия:

Певец-Давид был ростом мал, Но повалил же Голиафа! (ЕГЭ_2005. демо, уровень А)

1)

400 бит

2)

50 бит

3)

400 байт

4)

5 байт

Решение:

В тексте 50 символов, включая пробелы и знаки препинания. При кодировании каждого символа одним байтом на символ будет приходиться по 8 бит, Следовательно, переведем в биты 50*8= 400 бит.

Ответ: 400 бит

5. Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения в кодировке КОИ-8: Сегодня метеорологи предсказывали дождь. (ЕГЭ_2005, уровень А)

Решение:

В таблице КОИ-8 каждый символ закодирован с помощью 8 бит. См. решение задачи №4.

Ответ: 320 бит

6. Считая, что каждый символ кодируется 16 битами, оцените информационный объем следующего предложения в кодировке Unicode:

Каждый символ кодируется 8 битами.

(ЕГЭ_2005, уровень А)

Решение:

34 символа в предложении. Переведем в биты: 34*16=544 бита.

Ответ: 544 бит

7. Каждый символ закодирован двухбайтным словом. Оцените информационный объем следующего предложения в этой кодировке:

В одном килограмме 100 грамм.

(ЕГЭ_2005, уровень А)

Решение:

19 символов в предложении. 19*2 =38 байт

Ответ: 38 байт

Уровень «4»

8. Текст занимает полных 10 секторов на односторонней дискете объемом 180 Кбайт. Дискета разбита на 40 дорожек по 9 секторов. Сколько символов содержит текст? ([1], c.133, №34)

Решение:

  1. 40*9 = 360 -секторов на дискете.

  2. 180 Кбайт : 360 * 10 =5 Кбайт – поместится на одном секторе.

  3. 5*1024= 5120 символов содержит текст.

Ответ: 5120 символов

9. Сообщение передано в семибитном коде. Каков его информационный объем в байтах, если известно, что передано 2000 символов.

Решение:

Если код символа содержит 7 бит, а всего 2000 символов, узнаем сколько бит займет все сообщение. 2000 х 7=14000 бит.

Переведем результат в байты. 14000 : 8 =1750 байт

Ответ: 1750 байт.

Уровень «5»

10. Сколько секунд потребуется модему, передающему сообщение со скоростью 28800 бит/с, чтобы передать 100 страниц текста в 30 строк по 60 символов каждая, при условии, что каждый символ кодируется одним байтом? (ЕГЭ_2005, уровень В)

Решение:

  1. Найдем объем сообщения. 30*60*8*100 =1440000 бит.

  2. Найдем время передачи сообщения модемом. 1440000 : 28800 =50 секунд

Ответ: 50 секунд

11. Сколько секунд потребуется модему, передающему сообщения со скоростью 14400 бит/с, чтобы передать сообщение длиной 225 Кбайт? (ЕГЭ_2005, уровень В)

Решение:

  1. Переведем 225 Кб в биты.225 Кб *1024*8 = 1843200 бит.

  2. Найдем время передачи сообщения модемом. 1843200: 14400 =128 секунд.

Ответ: 128 секунд

  1. Кодирование (декодирование) текстовой информации.

Методические рекомендации:

В задачах такого типа используются понятия:

Кодирование – отображение дискретного (прерывного, импульсного) сообщения в виде определенных сочетаний символов.

Код (от французского слова code – кодекс, свод законов) – правило по которому выполняется кодирование.

Кодовая таблица (или кодовая страница) – таблица, устанавливающая соответствие между символами алфавита и двоичными числами.

Примеры кодовых таблиц (имеются на CD диске к учебнику Н. Угринович):

  • КОИ-7, КОИ-8 – кодирование русских букв и символов (семи-, восьми -битное кодирование)


 

1) #154 неразрывный пробел.

Рис.1 Кодировка КОИ8-Р

  • ASCII –American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией) – это восьмиразрядная кодовая таблица, в ней закодировано 256 символов (127- стандартные коды символов английского языка, спецсимволы, цифры, а коды от 128 до 255 – национальный стандарт, алфавит языка, символы псевдографики, научные символы, коды от 0 до 32 отведены не символам, а функциональным клавишам).

1) #32 — пробел.

Рис. 2 Международная кодировка ASCII

  • Unicode – стандарт, согласно которому для представления каждого символа используется 2 байта. (можно кодировать математические символы, русские, английские, греческие, и даже китайские). C его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов

  • СР1251 — наиболее распространенной в настоящее время является кодировка Microsoft Windows, («CP» означает «Code Page», «кодовая страница»).

1) #160 неразрывный пробел,

2)  #173 мягкий перенос.

Рис. 3 Кодировка CP1251

1) #255 неразрывный пробел.

Рис. 4 Кодировка СР866

    1. #202 неразрывный пробел.

Рис. 5 Кодировка Mac

  • ISO 8859-5 -Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку.

 1) Коды 128-159 не используются;

2)  #160 неразрывный пробел,

3)  #173 мягкий перенос.

Рис. 6 Кодировка ISO 8859-5

Уровень «3»

Используем кодировочные таблицы

12. Как будет выглядеть слово «диск», записанное в кодировке СР1251, в других кодировках. ([2], стр. 68 №2.63)

Решение:

Последовательность десятичных кодов слова «диск» составляем на основе кодировочных таблиц

Кодовая таблица

Коды

Слово

СР1251

228 232 241 234

диск

КОI8-Р

228 232 241 234

ДХЯЙ

СР866

228 232 241 234

фшёъ

Мас

228 232 241 234

диск

ISO

228 232 241 234

фшёъ

Используем ПО (текстовый редактор Hieroglyph, Wise Calculator)

13. Перейдите от двоичного кода к десятичному и декодируйте следующие тексты:


а) 01010101 01110000 0100000 00100110 00100000 01000100 1101111 01110111 01101110;
б) 01001001 01000010 01001101;
в) 01000101 01101110 01110100 01100101 01110010

([2], стр. 68 №2.60)

Решение:

1. Переведите коды из двоичной системы счисления в десятичную.
а) 01010101 01110000 00100000 00100110 00100000 01000100 1101111 01110111 01101110 → 85 112 32 38 32 68 111 119 110
б) 01001001 01000010 01001101 → 73 66 77
в) 01000101 01101110 01110100 01100101 01110010 → 69 110 116 101 114
2. Запустите текстовый редактор Hieroglyph
3. Включить клавишу Num Lock. Удерживая клавишу Alt, набрать код символа на цифровой клавиатуре. Отпустить клавишу Alt, на экране появится соответствующая буква.
а) 85 112 32 26 32 68 111 119 110 → Up & Down;
б) 73 66 77 → IBM;
в) 69 110 116 101 114 → Enter

Ответ: Up & Down; IBM; Enter

14. Декодируйте следующие тексты, заданные десятичным кодом:
а) 087 111 114 100;
б) 068 079 083;
в) 080 097 105 110 116 098 114 117 115 104.

([2], стр. 68 №2.61)

Решение:

Запустите текстовый редактор Hieroglyph. Включить клавишу Num Lock. Удерживая клавишу Alt, набрать код символа на цифровой клавиатуре. Отпустить клавишу Alt, на экране появится соответствующая буква.
а) 087 111 114 100 → Word;
б) 068 079 083 → DOS;
в) 080 097 105 110 116 098 114 117 115 104 → Paintbrush.

Ответ: Word; DOS; Paintbrush.

Уровень «4»

Не используем кодировочные таблицы

15. Буква «I »в таблице кодировки символов имеет десятичный код 105. что зашифровано последовательностью десятичных кодов: 108 105 110 107? ([1],пример 2, стр.132)

Решение:

Учитываем принцип последовательности кодирования и порядок букв в латинском алфавите и, можно, не обращаться к таблице кодировки символов.

Десятичный код

105

106

107

108

109

110

Латинская буква

i

j

k

l

m

n

Ответ: Закодировано слово «link»

16. Десятичный код (номер) буквы «е» в таблице кодировки символов ASCII равен 101. Какая последовательность десятичных кодов будет соответствовать слову:

1) file; 2) help? ([1], №35, стр.133)

Решение:

Учитываем принцип последовательности кодирования и порядок букв в латинском алфавите:

Десятичный код

101

102

103

104

105

106

107

108

109

110

111

112

Латинская буква

e

f

g

h

i

j

k

l

m

n

o

p

Ответ:

1) 102 105 108 101

2) 104 101 108 112

17. Десятичный код (номер) буквы «о» в таблице кодировки символов равен 111. Что зашифровано с помощью последовательности десятичных кодов:

1) 115 112 111 114 116

2) 109 111 117 115 101

([1], №36, стр.133)

Решение:

Речь идет о латинской букве «о», а не о русской, так как код меньше 127. Учитывая принцип последовательности кодирования и порядок букв в латинском алфавите, имеем:

код

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

буква

e

f

g

h

i

j

k

l

m

n

o

p

q

r

s

t

u

Ответ: 1) sport, 2)mouse

18. Для 5 букв латинского алфавита заданы их двоичные коды (для некоторых букв из двух бит, для некоторых из трех). Эти коды представлены в таблице.

A

B

C

D

E

000

01

100

10

011

Определить, какой набор букв закодирован двоичной строкой 0110100011000

1) EBCEA 2) BDDEA 3)BDCEA 4) EBAEA ?

Решение:

Так как код записывается, начиная с младшего разряда, то рассмотрим двоичную строку справа налево: 0110 100 011 000. Легко увидеть, что последние три буквы будут С, Е, А. Кода 110 нет, значит рассмотрим код из двух бит. 10 – D, 01 – B. Значит, двоичной строкой закодирован набор букв 3) BDCEA. Других вариантов дешифровки заданной двоичной строки не существует.

Ответ: 3) BDCEA

Уровень «5»

Не используем кодировочные таблицы

19. С помощью последовательности десятичных кодов: 99 111 109 112 117 116 101 114 зашифровано слово «computer». Какая последовательность десятичных кодов будет соответствовать этому же слову, записанному заглавными буквами? ([1],пример 3, стр.132)

Решение:

Учитываем, что разница между десятичным кодом строчной буквы латинского алфавита и десятичным кодом соответствующей заглавной буквы равна 32.

Десятичный код

Латинская буква строчная

Десятичный код

Латинская буква заглавная

99

c

67

C

111

o

79

O

109

m

77

M

112

p

80

P

117

u

85

U

116

t

84

T

101

e

69

E

114

r

82

R

20. Десятичный код (номер) буквы «i» в таблице кодировки символов ASCII равен 105. Какая последовательность десятичных кодов будет соответствовать слову INFORMATION? ([1], №37, стр.134)

Решение:

Учитываем, что разница между десятичным кодом строчной буквы латинского алфавита и десятичным кодом соответствующей заглавной буквы равна 32, а также, что сначала в таблице записываются заглавные, а потом строчные буквы, определим код заглавной буквы «I». 105-32 =73. Учитывая принцип последовательности кодирования и порядок букв в латинском алфавите, имеем:

код

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

буква

A

B

C

D

Е

f

g

h

i

j

k

l

m

n

o

p

q

r

s

t

Ответ: 73 78 70 79 82 77 65 84 73 79 78

21. С помощью последовательности десятичных кодов: 66 65 83 73 67 зашифровано слово BASIC. Какая последовательность десятичных кодов будет соответствовать этому слову, записанному строчными буквами. ([1], №38, стр.134)

Решение:

Учитываем, что разница между десятичным кодом строчной буквы латинского алфавита и десятичным кодом соответствующей заглавной буквы равна 32, и то, что заглавные буквы записываются раньше строчных, имеем, код слова basic: 98 97 115 105 99

Ответ: 98 97 115 105 99

  1. Внутреннее представление текста в компьютере.

Методические рекомендации:

Для решения задач учащиеся должны пользоваться кодовыми таблицами (см.[1], приложение 2, стр.295, 296) и Wise Calculator (для перевода в систему счисления кодов символов, с целью экономии времени). Учащиеся должны понимать, что информация, хранящаяся в двоичном коде чаще всего перекодируется в шестнадцатеричную форму. Шестнадцатеричный код каждого символа – двузначное число от 00 до FF (если длина двоичного кода равна 8, разбиваем на тетрады)

Уровень «3-4»

Оценка 3 ставится за кодирование, оценка 4 –за перевод в 16-ричную систему

Используем кодировочные таблицы

22. Закодируйте с помощью кодировочной таблицы ASCII и представьте в шестнадцатеричной системе счисления следующие тексты:
а) Password;
б) Windows;
в) Norton Commander.

([2], стр. 68, №2.58)

Решение:

1. Найдите в кодовой таблице ASCII коды соответствующих символов (в десятичной системе счисления)
а) Password → 80 97 115 115 119 111 114 100.
б) Windows → 87 105 110 100 111 119 115.
в) Norton Commander → 78 111 114 116 111 110 32 67 111 109 109 97 110 100 101 114
2. Переведите коды с помощью калькулятора в шестнадцатеричную систему счисления.
а) 80 97 115 115 119 111 114 100 → 50 61 73 73 77 6F 72 64
б) 87 105 110 100 111 119 115 → 57 69 6E 64 6F 77 73
в) 78 111 114 116 111 110 32 67 111 109 109 97 110 100 101 114 → 4E 6F 72 74 6F 6E 20 43 6F 6D 6D 61 6E 64 65 72

Ответ:

а) 50 61 73 73 77 6F 72 64
б) 57 69 6E 64 6F 77 73
в) 4E 6F 72 74 6F 6E 20 43 6F 6D 6D 61 6E 64 65 72

23. Декодируйте с помощью кодировочной таблицы ASCII следующие тексты, заданные шестнадцатеричным кодом:

а) 54 6F 72 6E 61 64 6F;
б) 49 20 6C 6F 76 65 20 79 6F 75;
в) 32 2A 78 B 79 3D 30
([2], стр. 68 №2.59)

Решение:

1. Переведите коды с помощью калькулятора из шестнадцатеричной системы счисления в десятичную.
а) 54 6F 72 6E 61 64 6F → 84 111 114 110 97 100 111
б) 49 20 6C 6F 76 65 20 79 6F 75 → 73 32 108 111 118 101 32 121 111 117
в) 32 2A 78 2B 79 3D 30 → 50 42 120 43 121 57 48
2. Найдите в кодовой таблице ASCII символы, соответствующие кодам:
а) 84 111 114 110 97 100 111 → Tornado;
б) 73 32 108 111 118 101 32 121 111 117 → I love you;
в) 50 42 120 43 121 57 48 → 2*X+Y=0.

Ответ: а) Tornado; б) I love you; в) 2*X+Y=0.

Уровень «5»

Используем кодировочные таблицы в приложении к учебнику [1], где представлен десятичный и двоичный код символа или кодировочные таблицы на CD к учебнику Н. Угриновича. Перевод чисел в шестнадцатеричную систему производится без калькулятора.

24. Пользуясь таблицей кодировки символов, расшифруйте текст, представленный в виде шестнадцатеричных кодов символов:

1) 57 69 6Е 64 6F 77 73 2D 39 35;

2) 63 6F 6D 65 2D 4F 4E 2D 6C 69 6E 65

([1], №40, стр.134)

Решение:

    1. Переведем числа в двоичную систему счисления и найдем символы в таблице:

16СС

57

69

6Е

64

6F

77

73

2D

39

35

2СС

01010111

01101001

01101110

01100100

01101111

01110111

01110011

00101101

0011001

00110101

буква

W

i

n

d

o

w

s

9

5

25. Представьте в форме шестнадцатеричного кода слово «БИС» во всех пяти кодировках. ([2], стр. 68 №2.62)

Решение:

Последовательности десятичных кодов слова «БИС» в различных кодировках составляем на основе кодировочных таблиц:
КОI8-Р: = 226 233 243
СР1251: = 193 200 209;
СР866: = 129 136 145;
Мас: = 129 136 145;
ISO: = 177 184 193.
Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:
КОI8-Р: = 226 233 243 = E2 E9 F3;
СР1251: = 193 200 209 = C1 C8 D1;
СР866: = 129 136 145 = 81 88 91;
Мас: = 129 136 145 = 81 88 91;
ISO: = 177 184 193 = B1 B8 C1.

Литература:

  1. И. Семакин, Е Хеннер, Информатика. Задачник-практикум, т.1, Москва, ЛБЗ, 1999, с.131-134.

  2. Практикум по информатике и информационным технологиям. Учебное пособие для общеобразовательных учреждений / Н.Д. Угринович, Л.Л. Босова, Н.И. Михайлова. – М.: Бином. Лаборатория Знаний, 2002. 400 с.: ил.

Кодировки символов: основные понятия

Кодировки символов: основные понятия

В этой статье вводится ряд основных понятий, необходимых для понимания других статей, посвященных символам и кодировкам символов.

Unicode — это универсальный набор символов, т.е. стандарт, который определяет в одном месте все символы необходим для написания большинства живых языков, используемых на компьютерах. Он стремится быть и в значительной степени уже является надмножеством всех других кодированных наборов символов.

Текст на компьютере или в Интернете состоит из символов. Символы представляют буквы алфавита, знаки препинания или другие символы.

В прошлом разные организации собирали разные наборы символов и создавали для них кодировки — один набор может охватывать только латинские западноевропейские языки (за исключением стран ЕС, таких как Болгария или Греция), другой может охватывать конкретный дальневосточный язык ( например, японский), другие могут быть одним из множества наборов, разработанных довольно специальным образом для представления другого языка где-нибудь в мире.

К сожалению, вы не можете гарантировать, что ваше приложение будет поддерживать все кодировки или что данная кодировка будет поддерживать все ваши потребности для представления данного языка. Кроме того, обычно невозможно комбинировать разные кодировки на одной и той же веб-странице или в базе данных, поэтому обычно очень сложно поддерживать многоязычные страницы с использованием «устаревших» подходов к кодированию.

Консорциум Unicode предоставляет большой единый набор символов, который направлен на включение всех символов, необходимых для любой системы письма в мире, включая древние письменности (такие как клинопись, готические и египетские иероглифы).В настоящее время он является фундаментальным для архитектуры Интернета и операционных систем и поддерживается всеми основными веб-браузерами и приложениями. Стандарт Unicode также описывает свойства и алгоритмы работы с символами.

Этот подход значительно упрощает работу с многоязычными страницами или системами и обеспечивает гораздо лучшее покрытие ваших потребностей, чем большинство традиционных систем кодирования.

Ниже показаны блоки сценария Unicode начиная с версии 5.2 Unicode:

Юникод

Считается, что первые 65 536 позиций кодовой точки в наборе символов Unicode составляют базовую многоязычную плоскость (BMP) .BMP включает в себя большинство наиболее часто используемых символов.

Число 65 536 равно 2 в степени 16. Другими словами, максимальное количество битовых перестановок, которые вы можете получить в двух байтах.

Набор символов Unicode также содержит пространство для около миллиона дополнительных позиций кодовой точки. Символы в этом последнем диапазоне называются дополнительными символами .

Базовая многоязычная плоскость (BMP) Дополнительная плоскость специального использования Плоскости частного использования SIP (дополнительная идеографическая плоскость) SMP (дополнительная многоязычная плоскость) 65 536 кодовых точек

Для получения дополнительной информации о Unicode см. Домашнюю страницу Unicode или прочтите учебник An Introduction to Writing Systems & Unicode .

Важно четко различать концепции набора символов и кодировки символов.

Набор символов или репертуар включает набор символов, которые можно использовать для определенной цели — будь то те, которые требуются для поддержки Западноевропейские языки в компьютерах, или те, которые китайский ребенок будет изучать в школе в третьем классе (никакого отношения к компьютерам).

Набор кодированных символов — это набор символов, каждому из которых присвоен уникальный номер. персонаж.Единицы набора кодированных символов известны как кодовых точек . Значение кодовой точки представляет позицию символа в кодированном наборе символов. Например, кодовая точка для буквы á в наборе кодированных символов Unicode — 225 в десятичной системе счисления или 0xE1 в шестнадцатеричной системе счисления. (Обратите внимание, что шестнадцатеричная запись обычно используется для обозначения кодовых точек и будет использоваться здесь.) Кодовая точка Unicode может иметь значение от 0x0000 до 0x10FFFF.

Наборы кодированных символов иногда называют кодовыми страницами.

Кодировка символов отражает способ отображения набора кодированных символов в байты для манипулирования в компьютер. На рисунке ниже показано, как символы и кодовые точки в сценарии Tifinagh (Berber) отображаются в последовательности байтов в памяти с использованием в кодировке UTF-8 (которую мы описываем в этом разделе). Значения кодовой точки для каждого символа перечислены непосредственно под глифом (т. Е. Визуальным представлением) этого символа в верхней части диаграммы.Стрелки показывают, как они отображаются в последовательности байтов, где каждый байт представлен двузначным шестнадцатеричным числом. Обратите внимание, как точки кода Tifinagh соответствуют трем байтам, а восклицательный знак — одному байту.

Кодировка символов

В этом объяснении замалчивается некоторая подробная номенклатура, относящаяся к кодированию. Более подробную информацию можно найти в Unicode Technical Отчет № 17 .

Один набор символов, несколько кодировок.Многие стандарты кодировки символов, такие как стандарты серии ISO 8859, используют один байт для данного символа, а кодировка прямое отображение на скалярную позицию символов в кодированном наборе символов. Например, буква A в наборе кодированных символов ISO 8859-1 находится в позиции 65-го символа (начиная с нуля) и кодируется для представления в компьютере с использованием байт со значением 65. Для ISO 8859-1 это никогда не меняется.

Однако с Unicode все не так просто.Хотя код для буквы á в Набор символов Unicode всегда равен 225 (в десятичной системе), в UTF-8 он представлен в компьютере двумя байтами. Другими словами, нет тривиального, взаимно однозначное соответствие между значением набора кодированных символов и кодированным значением для этого символа.

Кроме того, в Unicode есть несколько способов кодирования одного и того же символа. Например, буква á может быть представлена ​​двумя байтами в одной кодировке и четырьмя байтами в другой.Кодировка образует , который можно использовать с Unicode. называются UTF-8, UTF-16 и UTF-32.

Кодировка символов

UTF-8 использует 1 байт для представления символов в наборе ASCII, два байта для символов в еще нескольких алфавитных блоках и три байтов для остальной части BMP. Дополнительные символы занимают 4 байта.

UTF-16 использует 2 байта для любого символа в BMP и 4 байта для дополнительных символов.

UTF-32 использует 4 байта для всех символов.

На следующей диаграмме первая строка чисел представляет позицию символа в наборе кодированных символов Юникода. В другие строки показывают байтовые значения, используемые для представления этого символа в определенной кодировке символов.

Кодовая точка U + 0041 U + 05D0 U + 597D U + 233B4
UTF-8 41 D7 90 E5 A5 BD F0 A3 8E B4
UTF-16 00 41 05 D0 59 7D D8 4C DF B4
UTF-32 00 00 00 41 00 00 05 D0 00 00 59 7D 00 02 33 B4

Для получения дополнительной информации о символах и кодировках см. Введение в наборы символов и кодировки или прочтите учебник Обработка кодировок символов в HTML и CSS и статью Выбор и применение кодировки символов .

Для XML и HTML (начиная с версии 4.0 и далее) набор символов документа определен как универсальный Набор символов (UCS), как определено стандартами ISO / IEC 10646 и Unicode. (Для простоты и в соответствии с общепринятой практикой мы будем ссылаться на UCS здесь просто как Unicode.)

Это означает, что логическая модель, описывающая, как обрабатываются XML и HTML, описывается в терминах набора символов, определяемых Юникод. (На практике это означает, что браузеры обычно конвертируют весь текст в Unicode внутренне.)

Обратите внимание, что это не означает, что все документы HTML и XML должны использовать кодировку Unicode! Однако это означает, что документы могут содержать только символы, определенные Unicode. Для вашего документа может использоваться любая кодировка, если она правильно объявлена ​​и представляет собой подмножество репертуара Unicode.

Дополнительные сведения о наборе символов документа см. В статье Набор символов документа .

Хотя мы до сих пор использовали его без особых оговорок в этой статье, термин «символ» используется здесь абстрактно и несколько расплывчато для обозначения мельчайшего компонента письменного языка, имеющего семантическое значение.Однако термин «символ» часто используется для обозначения разных вещей в разных контекстах: он может по-разному относиться к визуальному, логическому или байтовому представлению данного фрагмента текста. Это делает термин слишком неточным для использования при указании алгоритмов, протоколов или форматов документов, если вы явно не определите, что вы под ним подразумеваете. Если термин «символ» используется в этих контекстах в техническом смысле, рекомендуется использовать его как синоним для кодовой точки (описанной выше).

Особенно важно помнить, что байты редко приравниваются к символам в Unicode, как показано в предыдущих примерах.

Однако, особенно в сложных сценариях, то, что пользователь воспринимает как наименьший компонент своего алфавита (и поэтому то, что мы будем называть воспринимаемым пользователем символом ), на самом деле может быть последовательностью кодовых точек. Например, вьетнамская буква ề будет восприниматься как одна буква, даже если базовая последовательность кодовых точек — U + 0065 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E + U + 0302 КОМБИНИРОВАНИЕ CIRCUMFLEX ACCENT + U + 0300 COMBINING GRAVE ACCENT. Точно так же говорящий на бангласском языке может рассматривать ksha (ক্ষ), которое состоит из последовательности U + 0995 БЕНГАЛИЙСКАЯ БУКВА KA + U + 09CD БЕНГАЛИЙСКИЙ ЗНАК ВИРАМА + U + 09B7 БЕНГАЛИЯ БУКВА SS,) как одну букву.

Часто важно принимать во внимание эти воспринимаемые пользователем символы. Например, некоторые комбинации кодовых точек обычно рассматриваются как единое целое для различных операций редактирования, таких как разрыв строки, перемещение курсора, выделение, удаление и т. Д. Обычно было бы проблематично, если бы пользовательский выбор случайно пропустил часть только что упомянутые буквы, или если разрыв строки отделяет базовый символ от следующих за ним комбинирующих символов.

Чтобы приблизить воспринимаемые пользователем единицы символов для таких операций, Unicode использует набор обобщенных правил для определения кластеров графем — последовательностей смежных кодовых точек, которые могут обрабатываться приложениями как единое целое.Один буквенный символ, такой как e, является кластером графемы, но то же самое относится и к любой комбинации основного символа и следующего за ним объединяющего символа (ов), например ề, упомянутого выше.

Стандартное приложение № 29 Unicode: Сегментация текста фактически определяет два типа кластеров графем: расширенные кластеры графем и устаревшие кластеры графем. Здесь, когда мы говорим «кластер графема», мы имеем в виду первое. Последний использовать не рекомендуется.

воспринимаемый пользователем символ
(возможное) декомпозиция и границы кластера графемы

Однако в настоящее время существуют некоторые ограничения для правил кластера графем: например, правила разделяют воспринимаемый пользователем символ Bangla kshī (ক্ষী) на два соседних кластера графем, а не охватывают весь орфографический слог.Таким образом, приложения, которым необходимо работать с воспринимаемыми пользователем символами в Bangla, должны применять некоторую специфичную для сценария адаптацию правил кластера графем.

воспринимаемый пользователем символ
декомпозиция и границы кластера графемы

Подходящие единицы для операций редактирования иногда меняются в зависимости от того, что вы хотите сделать. Например, если вы переместите назад слово на хинди हूँ (U + 0939 ПИСЬМО ДЕВАНАГАРИ HA + U + 0942 ЗНАК ГЛАВНОЙ ДЕВАНАГАРИ UU + U + 0901 ЗНАК ДЕВАНАГАРИ КАНДРАБИНДУ), приложение обычно сначала удаляет каждый из двух комбинируемых символов, а затем затем база.Однако, если вы выполняете «прямое удаление», когда курсор находится слева от слова, большинство приложений удалит весь кластер графемы за один раз.

CSS

для обозначения неделимой текстовой единицы в данном контексте использует термин типографская символьная единица . Определение того, что составляет типографскую символьную единицу, зависит от применяемой операции. Таким образом, при работе с примером ề выше при удалении вперед будет одна типографская символьная единица, а при обратном интервале — три.Кроме того, типографские символы охватывают такие случаи, как бенгальский ksha , которых в кластерах графем в настоящее время нет. Определение того, что составляет типографскую символьную единицу на данном языке и в контексте редактирования, передается приложению, а не прописано в правилах.

Шрифт представляет собой набор из знаков . В простом сценарии глиф — это визуальное представление кодовой точки. Глиф, используемый для представления кодовой точки, будет зависеть от используемого шрифта, а также от того, является ли шрифт полужирным, курсивом и т. Д.В случае смайликов используемые глифы зависят от платформы.

Фактически, для представления одной кодовой точки может использоваться более одного глифа, а несколько кодовых точек могут быть представлены одним глифом.

Emoji — еще один пример сложной взаимосвязи между кодовыми точками и глифами.

U + 1F46A СЕМЬЯ
U + 1F468 U + 200D U + 1F469 U + 200D U + 1F466
U + 1F468 U + 200D U + 1F469 U + 200D U + 1F467 U + 200D U + 1F466

Символ смайлика для «семьи» имеет кодовую точку в Юникоде: 👪 [U + 1F46A FAMILY].Его также можно сформировать с помощью последовательности кодовых точек: 👨‍👩‍👦 [U + 1F468 U + 200D U + 1F469 U + 200D U + 1F466]. Изменение или добавление других смайликов может изменить состав семьи. Например, последовательность 👨‍👩‍👧‍👧 [U + 1F468 U + 200D U + 1F469 U + 200D U + 1F467 U + 200D U + 1F466] приводит к составному глифу эмодзи для «семья: мужчина, женщина, девушка. , мальчик «на системах, поддерживающих такую ​​композицию. Многие распространенные эмодзи могут быть сформированы только с использованием последовательностей кодовых точек, но их следует рассматривать как один воспринимаемый пользователем символ при отображении или обработке текста.

Экранирование символа — это способ представления символа без фактического использования самого символа.

Например, невозможно напрямую представить еврейский символ א в документе, если вы используете ISO 8859-1. кодировка (которая охватывает западноевропейские языки). Один из способов указать, что вы хотите включить этот символ в HTML, — использовать escape-символ & # x05D0 ;. Поскольку набором символов документа является Unicode, пользовательский агент должен распознать, что он представляет еврейский алеф-символ.

Примеры экранирования в HTML / XHTML и CSS, а также советы о том, когда и как их использовать, можно найти в статье Использование экранирования символов в разметке и CSS .

Когда вы получаете документ с сервера, сервер обычно отправляет некоторую дополнительную информацию вместе с документом. Это называется заголовком HTTP. Вот пример информации о документе, которая передается с помощью HTTP-заголовка вместе с документом, когда он перемещается от сервера к клиенту.

Вторая строка снизу в этом примере содержит информацию о кодировке символов для документа.

 HTTP / 1.1 200 ОК
Дата: среда, 5 ноября 2003 г., 10:46:04 GMT
Сервер: Apache / 1.3.28 (Unix) PHP / 4.2.3
Расположение содержимого: CSS2-REC.en.html
Варьировать: переговоры, accept-language, accept-charset
TCN: выбор
P3P: policyref = http: //www.w3.org/2001/05/P3P/p3p.xml
Cache-Control: max-age = 21600.
Истекает: Ср, 05 ноя 2003 16:46:04 GMT
Последнее изменение: Вт, 12 мая 1998 г., 22:18:49 GMT
ETag: "3558cac9; 36f99e2b"
Accept-Ranges: байты
Длина содержимого: 10734
Подключение: закрыть
Тип содержимого: текст / html; charset = UTF-8
Content-Language: en 

Если ваш документ создается динамически с использованием сценариев, вы можете явно добавить эту информацию в заголовок HTTP.если ты обслуживают статические файлы, сервер может связать эту информацию с файлами. Метод настройки сервера для передачи персонажа информация о кодировании таким образом будет отличаться от сервера к серверу. Вам следует проконсультироваться с администратором сервера.

Например, серверы Apache обычно предоставляют кодировку по умолчанию, которую обычно можно переопределить настройками, зависящими от каталога. Например, веб-мастер может добавить следующую строку в файл .htaccess, чтобы обслуживать все файлы с расширением.html как UTF-8 в этом и во всех дочерних каталогах:

AddType 'text / html; charset = UTF-8 'html

Для получения дополнительной информации об изменении кодировки в заголовке HTTP см. Установка параметра кодировки HTTP

✔️ ❤️ ★ Таблица символов Юникода

Unicode — это вычислительный стандарт для согласованных символов кодирования. Он был создан в 1991 году. Это просто таблица, которая показывает расположение глифов в системе кодирования.Кодировка берет символ из таблицы и сообщает шрифту, что нужно нарисовать. Но компьютер может понимать только двоичный код. Итак, для представления символов используется кодировка цифрой 1 или 0. Как в азбуке Морзе точки и тире представляют буквы и цифры. Каждая единица (1 или 0) является битом вызова. 16 бит — это два байта. Наиболее известная и часто используемая кодировка — UTF-8. Для представления каждого символа требуется 1 или 4 байта. Старые типы кодирования занимают всего 1 байт, поэтому они не могут содержать достаточно глифов для поддержки более чем одного языка.

символов Юникода

Каждый символ Unicode имеет свой номер и HTML-код. Пример: кириллическая заглавная буква Э имеет номер U + 042D (042D — это шестнадцатеричное число), код & # 1098 ;. В таблице буква Э находится на линии пересечения № 0420 и столбец D. Если вы хотите узнать номер какого-либо символа Unicode, вы можете найти его в таблице. Или вставьте его в строку поиска. Или поиск по описанию («кириллическая буква E»). На странице символа вы можете увидеть, как он выглядит в разных шрифтах и ​​операционных системах.Вы можете скопировать это и вставить в Word или Facebook. Также на этом сайте есть несколько наборов символов для более комфортного совладания с ситуацией.

Другая часть таблицы Unicode включает в себя множество символов разных языков. Представляют почти все системы письма, использующиеся в наши дни. Латинский, арабский, кириллица, иероглифы, пиктографические. Буквы, цифры, знаки препинания. Также стандарт Unicode охватывает множество мертвых скриптов (abugidas, слоговые алфавиты) с исторической целью. Многие другие символы, не относящиеся к конкретной системе письма, тоже закодированы.Это стрелки, звездочки, управляющие символы и т. Д. Все человечество должно создавать качественный текст.

Стандарт Unicode

не останавливается, он продолжает развиваться. В июне 2015 года была выпущена версия 8.0. На данный момент закодировано более 120 тысяч символов. Консорциум не создает новые символы, а просто добавляет часто используемые. Лица (смайлы) включены, потому что они часто использовались японскими операторами мобильной связи. Но некоторые блоки не содержат принципиальных вопросов. В таблице Unicode нет товарных знаков, даже флага Windows или зарегистрированного товарного знака Apple.

Исходный алфавит — обзор

Пусть X будет случайной величиной, которая принимает значения из исходного алфавита X = {x0, x1,…, xN-1}. Пусть Y — случайная величина, которая принимает значения из алфавита восстановления Y = {y0, y1,…, yM-1}. Из главы 2 мы знаем, что энтропия источника и реконструкция задаются формулами

H (X) = — ∑i = 0N-1P (xi) log2P (xi)

и

H (Y) = — ∑j = 0M-1P (yj) log2P (yj)

Мерой взаимосвязи между двумя случайными величинами является условная энтропия (среднее значение условной самоинформации).Напомним, что самоинформация для события A определяется как

i (A) = log1P (A) = — logP (A)

Аналогичным образом условная самоинформация события A, учитывая, что другое событие B произошло, может быть определено как

i (A | B) = log1P (A | B) = — logP (A | B)

Предположим, B — это событие «Фрейзер ничего не пил в течение двух дней», А — событие «Фрейзер хочет пить». Тогда P (A | B) должно быть близко к единице, что означает, что условная самоинформация i (A | B) будет близка к нулю.Это имеет смысл и с интуитивной точки зрения. Если мы знаем, что Фрейзер ничего не пил в течение двух дней, то заявление о том, что Фрейзер хочет пить, не удивило бы нас и содержало бы очень мало информации.

Как и в случае самоинформации, нас обычно интересует среднее значение условной самоинформации. Это среднее значение называется условной энтропией. Условные энтропии исходного алфавита и алфавита реконструкции задаются как

(10) H (X | Y) = — ∑i = 0N-1∑j = 0M-1P (xi | yj) P (yj) log2P (xi | yj)

и

(11) H (Y | X) = — ∑i = 0N-1∑j = 0M-1P (yj | xi) P (xi) log2P (yj | xi)

Условная энтропия H (X | Y) можно интерпретировать как величину остающейся неопределенности относительно случайной величины X или выходного сигнала источника, при условии, что мы знаем, какое значение приняла реконструкция Y.Дополнительное знание Y должно уменьшить неопределенность относительно X, и мы можем показать, что

(12) H (X | Y) ⩽H (X)

(см. Задачу 5 в конце этой главы).

Пример 8.4.2

Предположим, у нас есть источник с 4 битами на символ и схема сжатия, описанная в примере 8.4.1. Предположим, что источник с одинаковой вероятностью выберет любую букву из своего алфавита. Давайте посчитаем различные энтропии для этого источника и схемы сжатия.

Поскольку все исходные данные равновероятны, P (X = i) = 116 для всех i∈ {0,1,2,…, 15}, и, следовательно,

(13) H (X) = — ∑i116log116 = log16 = 4bits

Мы можем вычислить вероятности алфавита реконструкции:

(14) P (Y = j) = P (X = j) + P (X = j + 1) = 116 + 116 = 18

Следовательно, H (Y) = 3 бит.Чтобы вычислить условную энтропию H (X | Y), нам потребуются условные вероятности {P (xi | yj)}. Из нашей конструкции исходного кодировщика мы видим, что

(15) P (X = i | Y = j) = 12ifi = jori = j + 1, forj = 0,2,4,…, 140 в противном случае

Подставляя это в выражение для H (X | Y) в уравнении (10), мы получаем

(16) H (X | Y) = — ∑i∑jP (X = i | Y = j) P (Y = j) logP (X = i | Y = j) = — ∑jP (X = j | Y = j) P (Y = j) logP (X = j | Y = j) + P (X = j + 1 | Y = j) P (Y = j) logP (X = j + 1 | Y = j) -812 · 18log12 + 12 · 18log12

(17) = 1

. Давайте сравним этот ответ с тем, что мы интуитивно ожидали, что неопределенность составит быть, основываясь на наших знаниях схемы сжатия.В описанной здесь схеме кодирования знание Y означает, что мы знаем первые 3 бита входного X. Единственное, в чем мы не уверены, — это значение последнего бита. Другими словами, если мы знаем значение реконструкции, наша неопределенность относительно выхода источника составляет 1 бит. Следовательно, по крайней мере, в этом случае наша интуиция соответствует математическому определению.

Чтобы получить H (Y | X), нам потребуются условные вероятности {P (yj | xi)}. Из нашего знания схемы сжатия мы видим, что

(18) P (Y = j | X = i) = 1ifi = jori = j + 1, forj = 0,2,4,…, 140 в противном случае

Если мы подставим эти значения в уравнение (11), мы получаем H (Y | X) = 0 бит (обратите внимание, что 0log0 = 0).Это тоже имеет смысл. Для описанной здесь схемы сжатия, если нам известен выходной сигнал источника, мы знаем 4 бита, первые 3 из которых являются реконструкцией. Следовательно, в этом примере сведения об исходном выходе в определенное время полностью определяют соответствующую реконструкцию. ♦ Кодирование памяти

| Введение в психологию

Наша память выполняет три основные функции: кодирование, хранение и получение информации. Кодирование — это процесс передачи информации в нашу систему памяти посредством автоматической или сложной обработки.Хранение — это сохранение информации, а извлечение — это процесс извлечения информации из хранилища и ее осознанного осознания посредством вспоминания, распознавания и повторного обучения. Существуют различные модели, которые призваны объяснить, как мы используем нашу память. В этом разделе вы узнаете о некоторых из этих моделей, а также о важности запоминания, распознавания и повторного обучения.

Память — это система обработки информации; поэтому мы часто сравниваем его с компьютером. Память — это набор процессов, используемых для кодирования, хранения и извлечения информации за различные периоды времени.

Мы получаем информацию в наш мозг посредством процесса, называемого кодирование , который является вводом информации в систему памяти. Как только мы получаем сенсорную информацию из окружающей среды, наш мозг маркирует или кодирует ее. Мы объединяем информацию с другой подобной информацией и связываем новые концепции с существующими концепциями. Кодирование информации происходит путем автоматической обработки и обработки, требующей усилий. Если кто-то спросит вас, что вы ели сегодня на обед, скорее всего, вы легко вспомните эту информацию.Это известно как автоматическая обработка или кодирование таких деталей, как время, пространство, частота и значение слов. Автоматическая обработка обычно выполняется без какого-либо осознания. Еще один пример автоматической обработки — это вспомнить, когда вы в последний раз готовились к тесту. Но как насчет фактического тестового материала, который вы изучали? Вероятно, с вашей стороны потребовалось много работы и внимания, чтобы закодировать эту информацию. Это известно как обработка , требующая усилий (рис. 2).

Рисунок 2 . Когда вы впервые осваиваете новые навыки, такие как вождение автомобиля, вы должны приложить усилия и внимание, чтобы закодировать информацию о том, как завести машину, как тормозить, как пройти поворот и так далее. Как только вы научитесь водить машину, вы сможете автоматически кодировать дополнительную информацию об этом навыке. (кредит: Роберт Куз-Бейкер)

Каковы наиболее эффективные способы гарантировать, что важные воспоминания хорошо закодированы? Даже простое предложение легче вспомнить, если оно имеет смысл (Anderson, 1984).Прочтите следующие предложения (Bransford & McCarrell, 1974), затем отведите взгляд и сосчитайте в обратном порядке от 30 по три до нуля, а затем попробуйте записать предложения (не заглядывая в эту страницу!).

  1. Ноты были кислыми из-за трещин по швам.
  2. Рейс не задержали, потому что бутылка разбилась.
  3. Стог сена был важен, потому что ткань порвалась.

Насколько хорошо вы справились? Сами по себе записанные вами утверждения, скорее всего, сбивали вас с толку и вам было трудно их вспомнить.Теперь попробуйте написать их еще раз, используя следующие подсказки: волынка, крещение корабля (разбивание бутылки над носовой частью корабля — символ удачи) и парашютист. Затем посчитайте в обратном порядке от 40 до четверок, затем проверьте себя, чтобы увидеть, насколько хорошо вы вспомнили предложения на этот раз. Вы можете видеть, что предложения теперь намного лучше запоминаются, потому что каждое из предложений было помещено в контекст. Материал намного лучше закодирован, если вы сделаете его значимым.

Есть три типа кодирования.Кодирование слов и их значения известно как семантическое кодирование . Впервые это продемонстрировал Уильям Боусфилд (1935) в эксперименте, в котором он просил людей запоминать слова. 60 слов были фактически разделены на 4 категории значений, хотя участники не знали этого, потому что слова были представлены случайным образом. Когда их просили запомнить слова, они, как правило, вспоминали их по категориям, показывая, что они обращали внимание на значения слов по мере их заучивания.

Визуальное кодирование — это кодирование изображений, а акустическое кодирование — это кодирование звуков, в частности слов. Чтобы увидеть, как работает визуальное кодирование, прочтите этот список слов: машина, уровень, собака, правда, книга, значение . Если бы вас позже попросили вспомнить слова из этого списка, какие, по вашему мнению, вы бы запомнили с наибольшей вероятностью? Вам, вероятно, будет легче вспомнить слова машина, собака, и книга , и труднее вспомнить слова уровень, правда, и значение .Почему это? Потому что вы можете вспомнить образы (мысленные образы) легче, чем одни слова. Когда вы читали слова машина, собака, и книга , вы создавали образы этих вещей в своем уме. Это конкретные, образные слова. С другой стороны, абстрактные слова, такие как уровень , истина, и значение , , являются словами с низким уровнем образов. Слова с высоким содержанием образов кодируются как визуально, так и семантически (Paivio, 1986), тем самым укрепляя память.

Теперь обратим внимание на акустическое кодирование.Вы едете в машине, и по радио звучит песня, которую вы не слышали как минимум 10 лет, но вы подпеваете, вспоминая каждое слово. В Соединенных Штатах дети часто учат алфавит с помощью песен, а количество дней в каждом месяце они узнают с помощью рифмы: Тридцать дней — сентябрь, апрель, июнь и ноябрь; / У всех остальных тридцать один, / За исключением февраля, когда ясно двадцать восемь дней, / И по двадцать девять в каждый високосный год ». Эти уроки легко запомнить благодаря акустической кодировке.Мы кодируем звуки, которые производят слова. Это одна из причин, почему большая часть того, чему мы учим маленьких детей, делается с помощью песен, стишков и ритмов.

Как вы думаете, какой из трех типов кодирования лучше всего запоминает вербальную информацию? Несколько лет назад психологи Фергус Крейк и Эндель Тулвинг (1975) провели серию экспериментов, чтобы выяснить это. Участникам были даны слова и вопросы о них. Вопросы требовали от участников обработки слов на одном из трех уровней.Вопросы визуальной обработки включали такие вопросы, как вопросы участников о шрифте букв. Вопросы акустической обработки спрашивали участников о звучании или рифме слов, а вопросы семантической обработки спрашивали участников о значении слов. После того, как участникам были предложены слова и вопросы, им было предложено неожиданное задание на вспоминание или распознавание.

Слова, закодированные семантически, запоминались лучше, чем закодированные визуально или акустически.Семантическое кодирование включает более глубокий уровень обработки, чем более поверхностное визуальное или акустическое кодирование. Крейк и Тулвинг пришли к выводу, что лучше всего мы обрабатываем вербальную информацию посредством семантического кодирования, особенно если мы применяем так называемый эффект самоотнесения. Эффект самореференции — это склонность человека лучше запоминать информацию, относящуюся к нему самому, по сравнению с материалами, имеющими меньшее личное значение (Rogers, Kuiper & Kirker, 1977). Может ли семантическое кодирование быть полезным для вас при попытке запомнить концепции этого модуля?

Перекодирование

Процесс кодирования является избирательным, и в сложных ситуациях замечаются и кодируются относительно немногие из многих возможных деталей.Процесс кодирования всегда включает в себя перекодирование , то есть получение информации из формы, которую она нам доставляет, и последующее преобразование ее таким образом, чтобы мы могли ее понять. Например, вы можете попытаться запомнить цвета радуги, используя аббревиатуру ROY G BIV (красный, оранжевый, желтый, зеленый, синий, индиго, фиолетовый). Процесс перекодировки цветов в имя может помочь нам запомнить. Однако перекодирование также может привести к ошибкам — когда мы случайно добавляем информацию во время кодирования, помните, что новый материал , как если бы он был частью реального опыта (как обсуждается ниже).

Рисунок 3 . Хотя это требует больших усилий, использование изображений и ассоциаций может улучшить процесс перекодирования. [Изображение: Лео Рейнольдс]

Психологи изучили множество стратегий перекодирования, которые можно использовать во время учебы для улучшения удержания. Во-первых, исследования советуют в процессе изучения думать о значении событий (Craik & Lockhart, 1972) и пытаться соотнести новые события с информацией, которую мы уже знаем. Это помогает нам формировать ассоциации, которые мы можем использовать для получения информации позже.Во-вторых, воображение событий также делает их более запоминающимися; создание ярких образов из информации (даже словесной) может значительно улучшить последующее запоминание (Bower & Reitman, 1972). Создание изображений — это часть техники, которую Саймон Рейнхард использует для запоминания огромного количества цифр, но все мы можем использовать изображения для более эффективного кодирования информации. Основная концепция хороших стратегий кодирования состоит в том, чтобы сформировать отличительные воспоминания (те, которые выделяются) и сформировать связи или ассоциации между воспоминаниями, чтобы помочь в последующем извлечении (Hunt & McDaniel, 1993).Использовать учебные стратегии, подобные описанным здесь, сложно, но эти усилия окупают преимущества улучшенного обучения и удержания.

Ранее мы подчеркивали, что кодирование является избирательным: люди не могут кодировать всю информацию, которой они подвергаются. Однако перекодирование может добавить информацию, которую даже не видели и не слышали на начальном этапе кодирования. Некоторые процессы перекодирования, такие как формирование ассоциаций между воспоминаниями, могут происходить без нашего ведома. Это одна из причин, по которой люди иногда могут вспомнить события, которых на самом деле не было, — потому что в процессе перекодирования добавлялись детали.Один из распространенных способов вызвать ложные воспоминания в лаборатории — это составить список слов (Deese, 1959; Roediger & McDermott, 1995). Участники слышат списки из 15 слов, например, дверь, стекло, стекло, штора, выступ, подоконник, дом, открытый, занавес, рама, вид, ветер, створка, экран, и ставня. Позже участникам предлагают тест, в котором им показывают список слов и просят выбрать те, которые они слышали ранее. Этот второй список содержит несколько слов из первого списка (например,g., дверь, стекло, рама ) и некоторые слова не из списка (например, рука, телефон, бутылка ). В этом примере одно из слов в тесте — это окно , которое, что важно, не появляется в первом списке, но связано с другими словами в этом списке. Когда испытуемые были протестированы, они были достаточно точны в изучаемых словах (, и т. Д.), Узнавая их в 72% случаев. Однако, когда тестировалось окно , они ошибочно определили, что оно было в списке 84% времени (Stadler, Roediger, & McDermott, 1999).То же самое произошло и со многими другими списками, которые использовали авторы. Это явление называется эффектом DRM (от Deese-Roediger-McDermott). Одно из объяснений таких результатов заключается в том, что, пока студенты слушали элементы в списке, эти слова побуждали студентов думать об окне , , хотя окно , окно никогда не было представлено. Таким образом кажется, что люди кодируют события, которые на самом деле не являются частью их опыта.

Поскольку люди творческие люди, мы всегда выходим за рамки той информации, которую нам дают: мы автоматически создаем ассоциации и делаем из них выводы о том, что происходит.Но, как и в случае с путаницей слов выше, иногда мы создаем ложные воспоминания из наших умозаключений, запоминая сами умозаключения, как если бы они были реальным опытом. Чтобы проиллюстрировать это, Брюэр (1977) дал людям запомнить предложения, которые были разработаны для получения прагматических выводов . Выводы, как правило, относятся к случаям, когда что-то явно не указано, но мы все еще можем угадать нераскрытое намерение. Например, если ваша подруга сказала вам, что не хочет идти куда-нибудь поесть, вы можете сделать вывод, что у нее нет денег, чтобы пойти куда-нибудь, или что она слишком устала.При прагматических выводах обычно есть один конкретный вывод , который вы, вероятно, сделаете. Рассмотрим высказывание Брюэр (1977), сделанное ее участникам: «Чемпион по карате ударил по шлакоблоку». Услышав или увидев это предложение, участники, прошедшие тест на память, как правило, запоминали высказывание, которое было следующим: «Чемпион по карате сломал шлакоблок». Это запомненное утверждение не обязательно является логическим выводом (т.е. вполне разумно, что чемпион по карате мог ударить шлакоблок, не сломав его).Тем не менее, прагматичный вывод из такого предложения состоит в том, что блок, вероятно, был сломан. Участники вспомнили этот вывод, который они сделали, когда слышали предложение вместо слов, которые были в предложении (см. Также McDermott & Chan, 2006).

Кодирование — начальная регистрация информации — имеет важное значение в процессе обучения и запоминания. Если событие не закодировано каким-либо образом, оно не будет успешно запомнено позже. Однако только потому, что событие закодировано (даже если оно хорошо закодировано), нет гарантии, что оно будет запомнено позже.

ASCII | коммуникации | Britannica

ASCII , аббревиатура Американского стандартного кода для обмена информацией , стандартный код передачи данных, который используется меньшими и менее мощными компьютерами для представления как текстовых данных (буквы, цифры и знаки препинания), так и не вводимых. -команды устройства (управляющие символы). Как и другие системы кодирования, он преобразует информацию в стандартизованные цифровые форматы, которые позволяют компьютерам взаимодействовать друг с другом и эффективно обрабатывать и хранить данные.

Код ASCII был первоначально разработан для телетайпов, но со временем нашел широкое применение в персональных компьютерах. Стандартный код ASCII использует семизначные двоичные числа; , то есть числа, состоящих из различных последовательностей нулей и единиц. Код может представлять 128 различных символов, поскольку существует 128 различных возможных комбинаций семи нулей и единиц. Двоичная последовательность 1010000, например, представляет собой заглавную букву «P», а последовательность 1110000 представляет собой строчную букву «p».”

Цифровые компьютеры используют двоичный код, который разбит на группы по восемь, а не семь цифр или битов. Каждая такая группа из восьми цифр называется байтом. Поскольку цифровые компьютеры используют восьмибитовые байты, код ASCII обычно встраивается в восьмибитовое поле, состоящее из семи информационных битов и бита четности, который используется для проверки ошибок или для представления специальных символов. Использование восьмибитной системы увеличило количество символов, которые может представлять код, до 256.Восьмиразрядная система, известная как расширенный код ASCII, была представлена ​​в 1981 году корпорацией International Business Machines Corporation (IBM) для использования с ее первой моделью персонального компьютера. Этот расширенный код ASCII вскоре стал отраслевым стандартом для персональных компьютеров. В нем 32 кодовые комбинации используются для машинных и управляющих команд, таких как «начало текста», «возврат каретки» и «подача страницы». Следующая группа из 32 комбинаций используется для чисел и различных знаков пунктуации.Другая группа из 32 комбинаций используется для прописных букв и нескольких других знаков препинания, а последние 32 используются для строчных букв.

Другая система кодирования, EBCDIC (Extended Binary Coded Decimal Interchange Code), используется в мэйнфреймах и миникомпьютерах.

Получите подписку Britannica Premium и получите доступ к эксклюзивному контенту. Подпишитесь сейчас

Узнайте, как написать свое имя в двоичном коде

Размещение и чтение битов в упорядоченных группах — вот что делает двоичный код исключительно мощным для хранения и передачи огромных объемов информации.Чтобы понять, почему, полезно рассмотреть альтернативу: что, если бы одновременно использовался только один бит? Что ж, вы могли бы поделиться только двумя типами информации — один тип представлен 0, а другой 1. Забудьте о кодировании всего алфавита или знаков препинания — вы получите только два типа информации.

Но когда вы группируете биты по два, вы получаете четыре вида информации:

00, 01, 10, 11

При переходе от двухбитовых групп к трехбитовым вы удваиваете объем информации, который вы можете кодировать:

000, 001, 010, 011, 100, 101, 110, 111

Хотя восьми различных видов информации по-прежнему недостаточно для представления всего алфавита, возможно, вы сможете увидеть, в каком направлении движется паттерн.

Используя любое представление двоичного кода, которое вы хотите, попробуйте выяснить, сколько возможных комбинаций битов вы можете разобрать, используя биты, сгруппированные по четыре. Затем попробуйте еще раз, используя биты, сгруппированные по пять. Как вы думаете, сколько возможных комбинаций вы можете получить, используя одновременно шесть бит или 64? Группируя отдельные биты в большие и большие группы, компьютеры могут использовать двоичный код для поиска, организации, отправки и хранения все большего количества видов информации.

Киддер доводит эту идею до конца в Душа новой машины :

«Компьютерные инженеры называют одно высокое или низкое напряжение битом, и это символизирует один фрагмент информации.Один бит не может много символизировать; он имеет только два возможных состояния, поэтому его можно использовать, например, для обозначения только двух целых чисел. Однако поместите много битов в ряд, и количество вещей, которые могут быть представлены, возрастет в геометрической прогрессии ».

По мере развития компьютерных технологий компьютерные инженеры нуждались в способах одновременной отправки и хранения большего количества информации. В результате длина битов, используемая компьютерами, неуклонно росла на протяжении истории компьютеров. Если у вас новый iPhone, в нем используется 64-разрядный микропроцессор, что означает, что он хранит информацию и получает доступ к ней группами по 64 двоичных цифры, что означает, что он способен хранить 2 64 , или более 18 000 000 000 000 000 000 уникальных 64-значных цифр. битовые комбинации двоичных целых чисел.Ого.

Идея кодирования информации с большим количеством битов для повышения мощности и эффективности компьютеров с самого начала и до сих пор движет компьютерной инженерией. Хотя этот отрывок из книги The Soul of a New Machine был впервые опубликован в 1981 году, основной принцип кодирования информации в двоичном коде с возрастающей сложностью по-прежнему отражает прогресс в вычислительной мощности сегодня:

«Внутри некоторых важных частей типичного современного компьютера биты — электрические символы — обрабатываются пакетами.Как и телефонные номера, пакеты имеют стандартный размер. Машины IBM традиционно обрабатывали информацию пакетами длиной 32 бита. NOVA от Data General и большинство последующих мини-компьютеров, включая Eclipses, работают с пакетами длиной всего 16 бит. Теоретически это различие несущественно, поскольку любой компьютер гипотетически способен делать то, что может делать любой другой компьютер. Но простота и скорость, с которой можно заставить разные компьютеры выполнять одну и ту же работу, сильно различаются, и в целом машина, обрабатывающая символы в 32-битных фрагментах, работает быстрее, а для некоторых целей — обычно больших — это проще. для программирования, чем машина, которая обрабатывает только 16 бит за раз.”

Из книги Трейси Киддер «ДУША НОВОЙ МАШИНЫ». Авторские права © 1981, Джон Трейси Киддер. Перепечатано с разрешения Little, Brown and Company, Нью-Йорк, штат Нью-Йорк. Все права защищены.

Информация в битах | plus.maths.org

Информация битовая.

Мы отправляем информацию через Интернет каждый день. Все это информация, будь то электронное письмо на день рождения или домашнее задание, in закодирован в последовательности нулей и единиц. Что лучше всего делать это? Способ, который использует наименьшее количество нулей и единиц и, следовательно, требует наименьшего объема компьютерной памяти.

Давайте сделаем предварительный расчет. Предположим, мы хотим закодировать 26 (строчные) букв алфавита плюс дополнительный символ, обозначающий пробел: каждый из 27 символов должен быть представлен строкой из нулей и единиц. Какой длины должны быть эти струны? Ясно, что они должны быть достаточно длинными, чтобы дать в общей сложности не менее 27 различных строк, чтобы мы могли однозначно связать их с нашими 27 символами. Есть строки длины (потому что у нас есть два варианта для каждой записи в строке), поэтому нам нужно

Решение для дает

Это говорит о том, что нам нужно 5 бит на символ для кодирования каждого из наших 27 символов.Вы можете сделать аналогичный расчет для 45 000 символов мандаринского языка, получив

и предполагаем, что вам нужно 16 бит на символ для их кодирования. Мы все еще не знаем точный код, который нужно использовать, но, по крайней мере, мы знаем, насколько тяжелым он будет в памяти нашего компьютера.

Использование шаблонов

Расчет выше аккуратный, но мы можем сделать лучше.»Любой разумный [код] воспользуется преимуществом тот факт, что некоторые буквы, такие как буква «е» в английском языке, встречаются гораздо чаще. чем другие, — объясняет Скотт Ааронсон, специалист по информатике из Массачусетского технологического института. количество бит для них. «Это идея, которая использовалась в азбуке Морзе более 150 лет: здесь наиболее распространенные буквы кодируются с использованием более коротких строк точек и тире, чем более редкие единицы.

.

В качестве примера предположим, что нужно кодировать только три буквы: A, B и C.Предположим, что A имеет частоту 1/2 (в длинном тексте половина букв будет A), а B и C имеют частоту 1/4 каждая (в длинном тексте четверть букв будет B, а другая четверть будет C ). Поскольку A является наиболее частым, давайте использовать один бит, скажем 0, для его кодирования. Для B и C мы будем использовать по два бита, скажем 01 и 11. Вы можете сами убедиться, что это достойный код — получатель может декодировать его, чтобы найти исходную последовательность букв без какой-либо двусмысленности. Чтобы кодировать текст, состоящий из этих букв, нам нужен один бит на символ в половине случаев (для A), два бита на символ в четверть времени (для B) и два бита на символ в другой четверти времени. (для C).Таким образом, среднее количество бит на символ составляет

Мы можем даже угадать более общую формулу, которая работает для различных частотных распределений. Чтобы увидеть, как это происходит, давайте сначала рассмотрим наш пример с буквами A, B и C и представим, что половину времени, когда встречается буква A, она красная, а другая половина — зеленая. Это дает четыре возможности: красная буква A с частотой 1/4, зеленая буква A с частотой 1/4, обычная черная буква B с частотой 1/4 и черная буква C с частотой 1/4.Все частоты теперь одинаковы, поэтому, если мы хотим закодировать символы таким образом, чтобы различать цвет букв A, нам потребуется около

бит на символ. Это тот же расчет, что и выше. В частности, нам нужны биты для идентификации B и C.

Для буквы A число слишком велико: на самом деле нам не нужно различать два цвета.Итак, давайте вычтем количество битов, необходимых для различения двух разных символов (соответствующих двум разным цветам), что дает

бит для представления A.

Среднее количество бит на символ теперь

Это тот же номер, который мы получали раньше, и это обнадеживает.Но мы также замечаем, что каждый член в сумме выше представляет собой частоту одного из символов (например, 1/2 для A), умноженную на логарифм 1, деленный на частоту (например, для A). И оказывается, что точно такой же образ мышления в целом работает и для алфавита символов. При записи для частоты символа 1, частоты символа 2 и т. Д. Оценка среднего количества битов, необходимых для каждого символа, составляет

Рождение долота

Думать об информации в терминах битов — нулей и единиц — кажется то, что прочно принадлежит современной эпохе, но идея существует уже более 60 лет.В 1948 году математик Клод Шеннон популяризировал слово «бит», которое является сокращением для «двоичный символ». Шеннон также придумал формулу, которую мы нашли выше. Учитывая алфавит символов и распределение вероятностей, указывающее вероятность, с которой символ встречается в тексте, состоящем из этих символов, число

Клод Шеннон.

называется энтропией распределения (подробнее см. В этой статье).Шеннон доказал, что среднее количество битов, необходимых для каждого символа, не может быть меньше энтропии, как бы умно вы их ни кодировали. Для огромного большинство алфавитов и распределений, среднее количество необходимых битов на самом деле лишь немного больше, чем энтропия. (Одна кодировка, которая очень близка к энтропии Шеннона для огромного большинство алфавитов и дистрибутивов это так называемый код Хаффмана.)

Если вы занимаетесь отправкой сообщений на большие расстояния, полезно знать энтропию.Если вы знаете, что можете передавать некоторое количество битов в секунду и что символы в вашем сообщении требуют в среднем около бит на символ, то вы можете предположить, что в среднем вы можете передавать около символов в секунду. Шеннон показал, что это действительно правильно: выбрав умный способ кодирования ваших символов, вы можете гарантировать среднюю скорость передачи, которая будет настолько близка к одной секунде, насколько вам нравится. И наоборот, независимо от того, как вы кодируете свои символы, невозможно передать с большей скоростью, чем этот интересный факт известен как теорема кодирования источника Шеннона .

Шеннон опубликовал этот результат в книге A Mathematical Theory of Communication , «Статья, которая по праву считается одной из величайших двадцатого века «, — говорит Ааронсон. теоретические усилия. Теорема исходного кода, например, не говорит вам, какой код доставит вас на указанное расстояние от максимальной скорости C / H за второй — там только сказано, что он есть.

Когда дело доходит до практичности приложения, теорема также имеет серьезный недостаток: предполагается, что ваше общение каналы передают чистые сообщения и никогда не вызывают ошибок.В в реальной жизни этого просто не бывает: отправляете ли вы сообщение в телеграмме, через по электронной почте или с помощью SMS, всегда есть шанс вскарабкался по пути и прибыл на другой конец поврежден.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *