Кодирование текста информатика – ИНФОРМАТИКА | Энциклопедия Кругосвет

Содержание

ИНФОРМАТИКА | Энциклопедия Кругосвет

Содержание статьи

ИНФОРМАТИКА техническая наука, систематизирующая приемы создания, хранения, обработки и передачи информации средствами вычислительной техники, а также принципы функционирования этих средств и методы управления ими.

В англоязычных странах применяют термин computer science – компьютерная наука.

Теоретической основой информатики является группа фундаментальных наук таких как: теория информации, теория алгоритмов, математическая логика, теория формальных языков и грамматик, комбинаторный анализ и т.д. Кроме них информатика включает такие разделы, как архитектура ЭВМ, операционные системы, теория баз данных, технология программирования и многие другие. Важным в определении информатики как науки является то, что с одной стороны, она занимается изучением устройств и принципов действия средств вычислительной техники, а с другой – систематизацией приемов и методов работы с программами, управляющими этой техникой.

Информационная технология – это совокупность конкретных технических и программных средств, с помощью которых выполняются разнообразные операции по обработке информации во всех сферах нашей жизни и деятельности. Иногда информационную технологию называют компьютерной технологией или прикладной информатикой.

Информация аналоговая и цифровая.

Термин «информация» восходит к латинскому informatio, разъяснение, изложение, осведомленность.

Информацию можно классифицировать разными способами, и разные науки это делают по-разному. Например, в философии различают информацию объективную и субъективную. Объективная информация отражает явления природы и человеческого общества. Субъективная информация создается людьми и отражает их взгляд на объективные явления.

В информатике отдельно рассматривается аналоговая информация и цифровая. Это важно, поскольку человек благодаря своим органам чувств, привык иметь дело с аналоговой информацией, а вычислительная техника, наоборот, в основном, работает с цифровой информацией.

Человек воспринимает информацию с помощью органов чувств. Свет, звук, тепло – это энергетические сигналы, а вкус и запах – это результат воздействия химических соединений, в основе которого тоже энергетическая природа. Человек испытывает энергетические воздействия непрерывно и может никогда не встретиться с одной и той же их комбинацией дважды. Нет двух одинаковых зеленых листьев на одном дереве и двух абсолютно одинаковых звуков – это информация аналоговая. Если же разным цветам дать номера, а разным звукам – ноты, то аналоговую информацию можно превратить в цифровую.

Музыка, когда ее слушают, несет аналоговую информацию, но если записать ее нотами, она становится цифровой.

Разница между аналоговой информацией и цифровой, прежде всего, в том, что аналоговая информация непрерывна, а цифровая дискретна.

К цифровым устройствам относятся персональные компьютеры – они работают с информацией, представленной в цифровой форме, цифровыми являются и музыкальные проигрыватели лазерных компакт дисков.

Кодирование информации.

Кодирование информации – это процесс формирования определенного представления информации.

В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью компьютерных программ можно преобразовывать полученную информацию, например «наложить» друг на друга звуки от разных источников.

Аналогично на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми.

Единицы измерения информации. Бит. Байт.

Бит – наименьшая единица представления информации. Байт – наименьшая единица обработки и передачи информации.

Решая различные задачи, человек использует информацию об окружающем нас мире. Часто приходится слышать, что сообщение несет мало информации или, наоборот, содержит исчерпывающую информацию,

при этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это означает, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя. Если в результате получения сообщения достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что получена исчерпывающая информация. Это означает, что нет необходимости в дополнительной информации на эту тему. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).

Подбрасывание монеты и слежение за ее падением дает определенную информацию. Обе стороны монеты «равноправны», поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит. Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит.

Единица измерения информации называется бит (bit) – сокращение от английских слов binary digit, что означает двоичная цифра.

В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено – не намагничено, есть отверстие – нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое – цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding).

В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (2

8). Наряду с байтами для измерения количества информации используются более крупные единицы:

1 Кбайт (один килобайт) = 2\up1210 байт = 1024 байта;

1 Мбайт (один мегабайт) = 2\up1210 Кбайт = 1024 Кбайта;

1 Гбайт (один гигабайт) = 2\up1210 Мбайт = 1024 Мбайта.

Например, книга содержит 100 страниц; на каждой странице – 35 строк, в каждой строке – 50 символов. Объем информации, содержащийся в книге, рассчитывается следующим образом:

Страница содержит 35 × 50 = 1750 байт информации. Объем всей информации в книге (в разных единицах):

1750 × 100 = 175 000 байт.

175 000 / 1024 = 170,8984 Кбайт.

170,8984 / 1024 = 0,166893 Мбайт.

Файл. Форматы файлов.

Файл – наименьшая единица хранения информации, содержащая последовательность байтов и имеющая уникальное имя.

Основное назначение файлов – хранить информацию. Они предназначены также для передачи данных от программы к программе и от системы к системе. Другими словами, файл – это хранилище стабильных и мобильных данных. Но, файл – это нечто большее, чем просто хранилище данных. Обычно файл имеет

имя, атрибуты, время модификации и время создания.

Файловая структура представляет собой систему хранения файлов на запоминающем устройстве, например, на диске. Файлы организованы в каталоги (иногда называемые директориями или папками). Любой каталог может содержать произвольное число подкаталогов, в каждом из которых могут храниться файлы и другие каталоги.

Способ, которым данные организованы в байты, называется форматом файла.

Для того чтобы прочесть файл, например, электронной таблицы, нужно знать, каким образом байты представляют числа (формулы, текст) в каждой ячейке; чтобы прочесть файл текстового редактора, надо знать, какие байты представляют символы, а какие шрифты или поля, а также другую информацию.

Программы могут хранить данные в файле способом, выбираемым программистом. Часто предполагается, однако, что файлы будут использоваться различными программами, поэтому многие прикладные программы поддерживают некоторые наиболее распространенные форматы, так что другие программы могут понять данные в файле. Компании по производству программного обеспечения (которые хотят, чтобы их программы стали «стандартами»), часто публикуют информацию о создаваемых ими форматах, чтобы их можно было бы использовать в других приложениях.

Все файлы условно можно разделить на две части – текстовые и двоичные.

Текстовые файлы – наиболее распространенный тип данных в компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняется с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255. Файл, для кодировки которого используется только 127 первых чисел, называется

ASCIIфайлом (сокращение от American Standard Code for Information Intercange – американский стандартный код для обмена информацией), но в таком файле не могут быть представлены буквы, отличные от латиницы (в том числе и русские). Большинство национальных алфавитов можно закодировать с помощью восьмибитной таблицы. Для русского языка наиболее популярны на данный момент три кодировки: Koi8-R, Windows-1251 и, так называемая, альтернативная (alt) кодировка.

Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Для экономии места зачастую применяется следующий прием: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Одной из попыток обобщения такого подхода является стандарт Unicode, в котором для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка любого уголка планеты.

Но чисто текстовые файлы встречаются все реже. Документы часто содержат рисунки и диаграммы, используются различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.

Двоичные файлы, в отличие от текстовых, не так просто просмотреть, и в них, обычно, нет знакомых слов – лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.

Примеры двоичного кодирования информации.

Среди всего разнообразия информации, обрабатываемой на компьютере, значительную часть составляют числовая, текстовая, графическая и аудиоинформация. Познакомимся с некоторыми способами кодирования этих типов информации в ЭВМ.

Кодирование чисел.

Есть два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел.

Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел. В k-разрядной ячейке может храниться 2k различных значений целых чисел.

Чтобы получить внутреннее представление целого положительного числа N, хранящегося в k-разрядном машинном слове, нужно:

1) перевести число N в двоичную систему счисления;

2) полученный результат дополнить слева незначащими нулями до k разрядов.

Например, для получения внутреннего представления целого числа 1607 в 2-х байтовой ячейке число переводится в двоичную систему: 160710 = 110010001112. Внутреннее представление этого числа в ячейке имеет вид: 0000 0110 0100 0111.

Для записи внутреннего представления целого отрицательного числа (–N) нужно:

1) получить внутреннее представление положительного числа N;

2) получить обратный код этого числа, заменяя 0 на 1 и 1 на 0;

3) полученному числу прибавить 1 к полученному числу.

Внутреннее представление целого отрицательного числа –1607. С использованием результата предыдущего примера и записывается внутреннее представление положительного числа 1607: 0000 0110 0100 0111. Обратный код получается инвертированием: 1111 1001 1011 1000. Добавляется единица: 1111 1001 1011 1001 – это и есть внутреннее двоичное представление числа –1607.

Формат с плавающей точкой использует представление вещественного числа R в виде произведения мантиссы m на основание системы счисления n в некоторой целой степени p, которую называют порядком: R = m * n p.

Представление числа в форме с плавающей точкой неоднозначно. Например, справедливы следующие равенства:

12,345 = 0,0012345 × 104 = 1234,5 × 10-2 = 0,12345 × 102

Чаще всего в ЭВМ используют нормализованное представление числа в форме с плавающей точкой. Мантисса в таком представлении должна удовлетворять условию:

0,1p Ј m p. Иначе говоря, мантисса меньше 1 и первая значащая цифра – не ноль (p – основание системы счисления).

В памяти компьютера мантисса представляется как целое число, содержащее только значащие цифры (0 целых и запятая не хранятся), так для числа 12,345 в ячейке памяти, отведенной для хранения мантиссы, будет сохранено число 12 345. Для однозначного восстановления исходного числа остается сохранить только его порядок, в данном примере – это 2.

Кодирование текста.

Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.

Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 28 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ.

Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

Кодирование графической информации.

В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части – растровую и векторную графику.

Растровые изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информации о его цвете.

Для черно-белого изображения (без полутонов) пиксел может принимать только два значения: белый и черный (светится – не светится), а для его кодирования достаточно одного бита памяти: 1 – белый, 0 – черный.

Пиксел на цветном дисплее может иметь различную окраску, поэтому одного бита на пиксел недостаточно. Для кодирования 4-цветного изображения требуются два бита на пиксел, поскольку два бита могут принимать 4 различных состояния. Может использоваться, например, такой вариант кодировки цветов: 00 – черный, 10 – зеленый, 01 – красный, 11 – коричневый.

На RGB-мониторах все разнообразие цветов получается сочетанием базовых цветов – красного (Red), зеленого (Green), синего (Blue), из которых можно получить 8 основных комбинаций:

RR
GG
BB
цветцвет
01
00
00
черныйкрасный
01
00
11
синийрозовый
01
11
00
зеленыйкоричневый
01
11
11
голубойбелый

Разумеется, если иметь возможность управлять интенсивностью (яркостью) свечения базовых цветов, то количество различных вариантов их сочетаний, порождающих разнообразные оттенки, увеличивается. Количество различных цветов – К и количество битов для их кодировки – N связаны между собой простой формулой: 2N = К.

В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения – линия, прямоугольник, окружность или фрагмент текста – располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т.д.) Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов.

Объекты векторного изображения, в отличие от растровой графики, могут изменять свои размеры без потери качества (при увеличении растрового изображения увеличивается зернистость).

Кодирование звука.

Из физики известно, что звук – это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), то видно плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой – аналоговый – сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел.

Делается это, например, так – измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его – аналого-цифровым преобразователем (АЦП).

Чтобы воспроизвести закодированный таким образом звук, нужно сделать обратное преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а затем сгладить получившийся ступенчатый сигнал.

Чем выше частота дискретизации и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук, но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения.

Описанный способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но бывают случаи, когда выгодней действовать по-иному.

Издавна используется довольно компактный способ представления музыки – нотная запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Фактически, ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. В 1983 ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI.

Конечно, такая система кодирования позволяет записать далеко не всякий звук, она годится только для инструментальной музыки. Но есть у нее и неоспоримые преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI-редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии.

Есть и другие, чисто компьютерные, форматы записи музыки. Среди них – формат MP3, позволяющий с очень большим качеством и степенью сжатия кодировать музыку, при этом вместо 18–20 музыкальных композиций на стандартном компакт-диске (CDROM) помещается около 200. Одна песня занимает, примерно, 3,5 Mb, что позволяет пользователям сети Интернет легко обмениваться музыкальными композициями.

Компьютер – универсальная информационная машина.

Одно из основных назначений компьютера – обработка и хранение информации. С появлением ЭВМ стало возможным оперировать немыслимыми ранее объемами информации. В электронную форму переводят библиотеки, содержащие научную и художественную литературы. Старые фото- и кино-архивы обретают новую жизнь в цифровой форме.

Анна Чугайнова

www.krugosvet.ru

Кодирование текстовой информации

Чаще всего кодированию подвергаются тексты, написанные на естественных языках (русском, немецком и др.).

Основные способы кодирования текстовой информации

Существует несколько основных способов кодирования текстовой информации:

  1. графический, в котором текстовая информация кодируется путем использования специальных рисунков или знаков;
  2. символьный, в котором тексты кодируются с использованием символов того же алфавита, на котором написан исходник;
  3. числовой, в котором текстовая информация кодируется с помощью чисел.

Процесс чтения текста представляет собой процесс, обратный его написанию, в результате которого письменный текст преобразуется в устную речь. Чтение – это ничто иное, как декодирование письменного текста.

А сейчас обратите внимание на то, что существует много способов кодирования одного и того же текста на одном и том же языке.

Пример 1

Поскольку мы русские, то и текст привыкли записывать с помощью алфавита своего родного языка. Однако тот же самый текст можно записать, используя латинские буквы. Иногда это приходится делать, когда мы отправляем SMS по мобильному телефону, клавиатура которого не содержит русских букв, или же электронное письмо на русском языке за границу, если у адресата нет русифицированного программного обеспечения. Например, фразу «Здравствуй, дорогой Саша!» можно записать как: «Zdravstvui, dorogoi Sasha!».

Стенография

Определение 1

Стенография — это один из способов кодирования текстовой информации с помощью специальных знаков. Она представляет собой быстрый способ записи устной речи. Навыками стенографии могут владеть далеко не все, а лишь немногие специально обученные люди, которых называют стенографистами. Эти люди успевают записывать текст синхронно с речью выступающего человека, что, на наш взгляд, достаточно сложно. Однако для них это не проблема, поскольку в стенограмме целое слово или сочетание букв могут обозначаться одним знаком. Скорость стенографического письма превосходит скорость обычного в $4-7$ раз. Расшифровать (декодировать) стенограмму может только сам стенографист.

Пример 2

На рисунке представлен пример стенографии, в которой написано следущее: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»:

Рисунок 1.

Стенография позволяет не только вести синхронную запись устной речи, но и рационализировать технику письма.

Замечание 1

Приведёнными примерами мы проиллюстрировали важное правило: для кодирования одной и той же информации можно использовать разные способы, при этом их выбор будет зависеть от цели кодирования, условий и имеющихся средств.

Если нам нужно записать текст в темпе речи, сделаем это с помощью стенографии; если нужно передать текст за границу, воспользуемся латинским алфавитом; если необходимо представить текст в виде, понятном для грамотного русского человека, запишем его по всем правилам грамматики русского языка.

Также немаловажен выбор способа кодирования информации, который, в свою очередь, может быть связан с предполагаемым способом её обработки.

Пример 3

Рассмотрим пример представления чисел количественной информации. Используя буквы русского алфавита, можно записать число «тридцать пять». Используя же алфавит арабской десятичной системы счисления, запишем: $35$. Допустим нам необходимо произвести вычисления. Естественно, что для выполнения расчётов мы выберем удобную для нас запись числа арабскими цифрами, хотя можно примеры описывать и словами, но это будет довольно громоздко и не практично.

Замечание 2

Заметим, что приведенные выше записи одного и того же числа используют разные языки: первая — естественный русский язык, вторая — формальный язык математики, не имеющий национальной принадлежности. Переход от представления на естественном языке к представлению на формальном языке можно также рассматривать как кодирование.

Криптография

В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью.

Определение 2

Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается исходный текст. Шифрование — это тоже кодирование, но с засекреченным методом, известным только источнику и адресату. Методами шифрования занимается наука криптография.

Определение 3

Криптография — это наука о методах и принципах передачи и приема зашифрованной с помощью специальных ключей информации. Ключ — секретная информация, используемая криптографическим алгоритмом при шифровании/расшифровке сообщений.

Числовое кодирование текстовой информации

В каждом национальном языке имеется свой алфавит, который состоит из определенного набора букв, следующих друг за другом, а значит и имеющих свой порядковый номер.

Каждой букве сопоставляется целое положительное число, которое называют кодом символа. Именно этот код и будет хранить память компьютера, а при выводе на экран или бумагу преобразовывать в соответствующий ему символ. Помимо кодов самих символов в памяти компьютера хранится и информация о том, какие именно данные закодированы в конкретной области памяти. Это необходимо для различия представленной информации в памяти компьютера (числа и символы).

Используя соответствия букв алфавита с их числовыми кодами, можно сформировать специальные таблицы кодирования. Иначе можно сказать, что символы конкретного алфавита имеют свои числовые коды в соответствии с определенной таблицей кодирования.

Однако, как известно, алфавитов в мире большое множество (английский, русский, китайский и др.). Соответственно возникает вопрос, каким образом можно закодировать все используемые на компьютере алфавиты.

Чтобы ответить на данный вопрос, нам придется заглянуть назад в прошлое.

В $60$-х годах прошлого века в американском национальном институте стандартизации (ANSI) была разработана специальная таблица кодирования символов, которая затем стала использоваться во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange, что означает в переводе с английского «американский стандартный код для обмена информацией»).

В данной таблице представлен $7$-битный стандарт кодирования, при использовании которого компьютер может записать каждый символ в одну $7$-битную ячейку запоминающего устройства. При этом известно, что в ячейке, состоящей из $7$ битов, можно сохранять $128$ различных состояний. В стандарте ASCII каждому из этих $128$ состояний соответствует какая-то буква, знак препинания или же специальный символ.

В процессе развития вычислительной техники стало ясно, что $7$-битный стандарт кодирования достаточно мал, поскольку в $128$ состояниях $7$-битной ячейки нельзя закодировать буквы всех письменностей, имеющихся в мире.

Чтобы решить эту проблему, разработчики программного обеспечения начали создавать собственные 8-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Во избежание путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ — реализуют региональные языковые особенности.

Замечание 3

Как мы знаем национальных алфавитов огромное количество, поэтому и расширенные таблицы ASCII-кодов представлены множеством вариантов. Так для русского языка существует также несколько вариантов, наиболее распространенные Windows-$1251$ и Koi8-r. Большое количество вариантов кодировочных таблиц создает определенные трудности. К примеру, мы отправляем письмо, представленное в одной кодировке, а получатель при этом пытается прочесть его в другой. В результате на экране у него появляется непонятная абракадабра, что говорит о том, что получателю для прочтения письма требуется применить иную кодировочную таблицу.

Существует и другая проблема, которая заключается в том, что алфавиты некоторых языков содержат слишком много символов, которые не позволяют помещаться им в отведенные позиции с $128$ до $255$ однобайтовой кодировки.

Следующая проблема возникает тогда, когда в тексте используют несколько языков (например, русский, английский и немецкий). Нельзя же использовать обе таблицы сразу.

Для решения этих проблем в начале $90$-х годов прошлого столетия был разработан новый стандарт кодирования символов, который назвали Unicode. С помощью этого стандарта стало возможным использование в одном тексте любых языков и символов.

Данный стандарт для кодирования символов предоставляет $31$ бит, что составляет $4$ байта за минусом $1$ бита. Количество возможных комбинаций при использовании данной кодировочной таблицы очень велико: $231 = 2 \ 147 \ 483 \ 684$ (т.е. более $2$ млрд.). Это возможно стало в связи с тем, что Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и другие специальные символы. И все-таки информационная емкость $31$-битового Unicode слишком велика, И как следствие, наиболее часто используют именно сокращенную $16$-битовую версию ($216 = 65 \ 536$ значений), в которой представлены все современные алфавиты. В Unicode первые $128$ кодов совпадают с таблицей ASCII.

spravochnick.ru

Информатика — Кодирование

1. Основные понятия

Закодировать текст – значит сопоставить ему другой текст. Кодирование применяется при передаче данных – для того, чтобы зашифровать текст от посторонних, чтобы сделать передачу данных более надежной, потому что канал передачи данных может передавать только ограниченный набор символов (например, — только два символа, 0 и 1) и по другим причинам.

При кодировании заранее определяют алфавит, в котором записаны исходные тексты (исходный алфавит) и алфавит, в котором записаны закодированные тексты (коды), этот алфавит называется кодовым алфавитом. В качестве кодового алфавита часто используют двоичный алфавит, состоящий из двух символов (битов) 0 и 1. Слова в двоичном алфавите иногда называют битовыми последовательностями.

 2. Побуквенное кодирование

Наиболее простой способ кодирования – побуквенный. При побуквенном кодировании каждому символу из исходного алфавита сопоставляется кодовое слово – слово в кодовом алфавите. Иногда вместо «кодовое слово буквы» говорят просто «код буквы». При побуквенном кодировании текста коды всех символов записываются подряд, без разделителей.

Пример 1. Исходный алфавит – алфавит русских букв, строчные и прописные буквы не различаются. Размер алфавита – 33 символа.

Кодовый алфавит – алфавит десятичных цифр. Размер алфавита  — 10 символов.

Применяется побуквенное кодирование по следующему правилу: буква кодируется ее номером в алфавите: код буквы А – 1; буквы Я – 33 и т.д.

Тогда код слова АББА – это 1221.

Внимание: Последовательность 1221 может означать не только АББА, но и КУ (К – 12-я буква в алфавите, а У – 21-я буква). Про такой код говорят, что он НЕ допускает однозначного декодирования

Пример 2.  Исходный и кодовый алфавиты – те же, что в примере 1. Каждая буква также кодируется своим номером в алфавите, НО номер всегда записывается двумя цифрами: к записи однозначных чисел слева добавляется 0. Например, код А – 01, код Б – 02 и т.д.

В этом случае кодом текста АББА будет 01020201. И расшифровать этот код можно только одним способом. Для расшифровки достаточно разбить кодовый текст 01020201 на двойки:  01 02 02 01 и для каждой двойки определить соответствующую ей букву.

Такой способ кодирования называется равномерным. Равномерное кодирование всегда допускает однозначное декодирование.

 Далее рассматривается только побуквенное кодирование

 3. Неравномерное кодирование

Равномерное кодирование удобно для декодирования. Однако часто применяют и неравномерные коды, т.е. коды с различной длиной кодовых слов. Это полезно, когда в исходном тексте разные буквы встречаются с разной частотой. Тогда часто встречающиеся символы стоит кодировать более короткими словами, а редкие – более длинными. Из примера 1 видно, что (в отличие от равномерных кодов!) не все неравномерные коды допускают однозначное декодирование.

Есть простое условие, при выполнении которого неравномерный код допускает однозначное декодирование.

Код называется префиксным,  если в нем нет ни одного кодового слова, которое было бы началом (по-научному, — префиксом) другого кодового слова.

Код из примера 1 – НЕ префиксный, так как, например, код буквы А (т.е. кодовое слово 1) – префикс кода буквы К (т.е. кодового слова 12, префикс выделен жирным шрифтом).

Код из примера 2 (и любой другой равномерный код) – префиксный: никакое слово не может быть началом слова той же длины.

Пример 3. Пусть исходный алфавит включает 9 символов: А, Л, М, О, П, Р, У, Ы, -.  Кодовый алфавит – двоичный. Кодовые слова:

А: 00
М: 01
-: 100
Л: 101
У: 1100
Ы: 1101
Р: 1110
О: 11110
П: 11111

Кодовые слова выписаны в алфавитном порядке. Видно, что ни одно из них не является началом другого. Это можно проиллюстрировать рисунком

На рисунке изображено бинарное дерево. Его корень расположен слева. Из каждого внутреннего узла выходит два ребра. Верхнее ребро имеет пометку 0, нижнее – пометку 1. Таким образом, каждому узлу соответствует слово в двоичном алфавите. Если слово X является началом (префиксом) слова Y, то узел, соответствующий слову X, находится на пути из корня в узел, соответствующий слову Y. Наши кодовые слова находятся в листьях дерева. Поэтому ни одно из них не является началом другого.

Теорема (условие Фано). Любой префиксный код (а не только равномерный) допускает однозначное декодирование.

Разбор примера (вместо доказательства). Рассмотрим закодированный текст, полученный с помощью кода из примера 3:

0100010010001110110100100111000011100

    Будем его декодировать таким способом. Двигаемся слева направо, пока не обнаружим код какой-то буквы. 0 – не кодовое слово, а 01 – код буквы М.

0100010010001110110100100111000011100

            Значит, исходный текст начинается с буквы М: код никакой другой буквы не начинается с 01! «Отложим» начальные 01 в сторону и продолжим.                         

                                                                        01 00010010001110110100100111000011100
                                                                         М

Далее таким же образом находим следующее кодовое слово 00 – код буквы А.

            01 00010010001110110100100111000011100
            М  А

Доведите расшифровку текста до конца самостоятельно.  Убедитесь, что он расшифровывается (декодируется) однозначно.

Замечание. В расшифрованном тексте 14 букв. Т.к. в алфавите 9 букв, то при равномерном двоичном кодировании пришлось бы использовать кодовые слова длины 4. Таким образом, при равномерном кодировании закодированный текст имел бы длину 56 символов – в полтора раза больше, чем в нашем примере (у нас 37 символов).

4. Как все это повторять. Задачи на понимание

Знание приведенного выше материала достаточно для решения задачи 5 из демо-варианта и близких к ней (см. здесь). Повторять (учить) этот материал стоит в том порядке, в котором он изложен. При этом нужно решать простые задачи – до тех пор, пока не будет достигнуто полное понимание. Ниже приведены возможные типы таких задач. Опытные учителя легко придумают (или подберут) конкретные задачи таких типов. Если будут вопросы – пишите.

1) Понятие побуквенного кодирования.

Дан алфавит Ф и кодовые слова для всех слов в алфавите Ф. Закодировать заданный текст в алфавите Ф. Коды могут быть с использованием разных кодовых алфавитов, равномерные и неравномерные.

2) Префиксные неравномерные коды.

2.1) Дан алфавит Ф и двоичный префиксный код для этого алфавита. Построить дерево кода (см. рис.1) и убедиться, что код – префиксный.

2.2) Дан алфавит Ф и двоичный префиксный код для этого алфавита. Декодировать (анализом слева направо) данный текст в кодовом алфавите.

2.3) Дан алфавит Ф и кодовые слова для всех слов в алфавите Ф. Определить, является ли данный код префиксным, или нет. В качестве примеров полезно приводить:

                        — Равномерный код.
                        — Неравномерный префиксный код (полезно нарисовать депево этого кода как на рис.1).
                        — Различные пополнения данного неравномерного префиксного кода с помощью кода еще одной буквы так, чтобы полученный код либо оставался префиксным, либо переставал им быть. При анализе дополнительной буквы полезно использовать дерево исходного кода. Полезно рассмотреть различные варианты «потери префиксности»: (а) новый код – начало одного из старых; (б) один из старых кодов – начало нового.

            2.4) Решать задачи для самостоятельного решения, например, отсюда

 

 

 

 

ege-go.ru

Кодирование чисел и текста — Информатика, информационные технологии

Кодирование чисел

Бит – наименьшая единица информации, которая выражает логическое «Да» или «Нет» и обозначается 1 или 0. Компьютер преобразует цифровую информацию, представленную в десятичной системе счисления в последовательность 0 и 1, а дальше уже работает с ними.

Системой счисления называют совокупность символов (цифр) и правил их использования для представления чисел.

Пример 1. Число 29 перевести из десятичной системы счисления в двоичную. Перевод осуществляется последовательным делением числа 29 на 2 и записью остатков от деления справа налево, как показано на схеме (рис. 3).

29 : 2 = 14 + 1

14 : 2 = 7 + 0

7 : 2 = 3 + 1

3 : 2 = 1 + 1

1 = 1

Рис. 3. Схема перевода числа из десятичной системы счисления в двоичную

Двоичная система исчисления является позиционной.

Читается: 20 – 1; 21 – 0; 22 – 1; 23 – 1; 24 – 1;

1х20 +0х21 +1х22 + 1х23 +1х24 =1+0+4+8+16=29.

Пример 2. Число 1011, заданное в двоичной системе, перевести в десятичную систему счисления.

1011 a одна единица, одна двойка, нуль четверок и одна восьмерка.

1х20 + 1х21 + 0х22 + 1х23 = 11.

Байт– группа из 8 битов.

Если учесть, что важны не только нули и единицы, но и позиции, в которых они стоят, то с помощью одного байта можно выразить 28 = 256 единиц информации:

0000 0000 = 0

0000 0001 = 1

0000 0010 = 2

0000 0011 = 3

0000 0100 = 4

0000 0101 = 5

………………

1111 1100 = 252

1111 1101 = 253

1111 1110 = 254

11111111 = 255 Писать (или набирать на клавиатуре компьютера) длинные цепочки единиц и нулей при задании чисел в двоичном формате довольно утомительно. Так же неудобно просматривать содержимое памяти компьютера, представленное в двоичном формате. Поэтому был разработан такой метод представления двоичных данных, когда каждый байт разбивается пополам и каждая 4-битовая его половина записывается в 16-ричной системе счисления. Для ее осуществления цифровой алфавит 10-тичной системы счисления дополнили шестью цифрами, условившись, что: 10 – это A, 11 – это B, 12 – это C, 13 – это D, 14 – это E, 15 – это F. Пример 3. Десятичное число 42936 в двоичном формате имеет вид 1010011110111000. После записи полубайтов 1010 0111 1011 1000 16-ричными цифрами получаем компактную запись представленного числа – A7B8.

Кодирование текста

С помощью одного байта, как было показано, можно кодировать 256 значений. Первые 128 кодов (с 0 до 127) – стандартные и обязательные для всех стран. Эту половину таблицы кодов называют таблицей ASCII (стандартный код информационного обмена США) – ввел ее американский институт стандартизации ANSI. В этой части таблицы размещаются прописные и строчные буквы английского алфавита, символы чисел от 0 до 9, все знаки препинания, символы арифметических операций, специальные коды. Коды читают а-эс-цэ-и (аски- коды). Первых 32 кода – управляющие, которые не используются для представления информации (от 0 до 31), а 32 символ – пробел.

33 – 47 – специальные символы, знаки препинания.

48 – 57 – цифры.

58 – 64 – математические символы и знаки препинания.

65 – 90 – прописные буквы английского алфавита.

91 – 96 – специальные символы.

97 – 122 – строчные буквы английского алфавита.

123 – 127 – специальные символы.

Остальные 128 кодов используются для специальных символов и букв национальных алфавитов (в том числе русского). И поскольку общепринятого стандарта для этого не было, возникло много различных кодировок, в том числе, несколько для кириллицы. Для кириллицы используют следующие кодировки: Кириллица (Windows), Кириллица (ISO), Кириллица (KOI8–R). Кириллица (ISO) используется редко. Кириллица (Windows) используется на ПК, работающих на платформе Windows. Де-факто Кириллица(Windows) стала стандартной в российском секторе World Wide Web. Кириллица (KOI8–R) де-факто является стандартной в сообщениях электронной почты и телеконференций.

В такой ситуации, когда используются различные кодировки кириллицы, на помощь приходят программы – конверторы. Они заменяют двоичный код каждого символа на код, которым такой символ представляется в другой кодировке. Это соответствие определяется таблицей перекодировки. Пользователь должен указать, из какой кодировки в какую идет преобразование, однако есть программы, автоматически определяющие кодировку исходного текста.

Следует отметить, что все рассмотренные кодировки текста ограничены набором кодов (256). Более широкими возможностями обладает система кодировки текста UNICODE, основанная на 16-разрядном кодировании символов. Шестнадцать разрядов обеспечивают кодирование 216 =65536 символов.

Чтобы рисунок буквы был виден на экране, его цвет должен отличаться от цвета фона, на котором он изображается. Поэтому коды символов (порядковые номера в таблице кодирования) необходимо дополнить кодами цвета фона и цвета рисунков. Для этих кодов цветов добавили еще один байт памяти и разделили его пополам – младшую (левую) половину из четырех битов отвели для кодирования цвета рисунка, а старшую для кодирования цвета фона. Этот байт назвали байтом атрибутов символа. Он всегда присутствует вместе с кодом символа в двух байтовых кодах символов, передаваемых в видеопамять для отображения на экране.

Четырьмя байтами можно закодировать 16 цветов, а при необходимости кодирования большего количества цветов применяют многоступенчатую систему кодирования. Содержимое байта атрибутов удобно записывать в 16-ричном формате, у которого первая цифра в этом случае обозначает цвет фона, а вторая – цвет рисунка символа. Например, 16-ричное число 4E кодирует желтые (код желтого цвета Е или 14 в 10-й системе) буквы на красном (код красного цвета равен 4) фоне.

Двухбайтовые кодовые группы каждой буквы текста, содержащие код символа и код атрибутов его изображения для вывода на экран, записываются в память устройства управления, которое называют дисплейным адаптером, а саму память – видеопамятью или видеобуфером.

Последнее название подсказывает, что для постоянного обновления изображения на экране из этого буфера с частотой примерно 25 (или более) раз в секунду считываются коды символов и преобразуются в рисунки букв на экране. Чтобы такое преобразование стало возможным, приходится закодировать и разместить в памяти компьютера и сами рисунки букв. Для изображения символов обычно отводится в зависимости от типа видеосистемы от 8 до 16 строк по 8 пикселов в строке. О каждом пикселе в изображении символа дисплейный адаптер должен знать, относится он к фону или рисунку – то есть достаточно одного бита с двумя состояниями. Если бит содержит 0, то это пиксел фона, а если 1 – то это пиксел рисунка.

256 кодовых групп символов текста хранятся в памяти для рисунков всех изображаемых символов, и вся эта область памяти называется буфером знакогенератора. Адаптер дисплея «узнает» начальный адрес этого буфера (порядковый номер его начального байта, отсчитанный от начала памяти), берет из видеопамяти код символа, означающий порядковый номер его кодовой группы в буфере знакогенератора, умножает на число пиксельных строк в изображении символа и прибавляет полученное число к начальному адресу буфера знакогенератора. Полученное число есть начальный адрес кодовой группы изображения символа. Далее видеоадаптер берет каждый байт кодовой группы изображения и работает уже с отдельными битами байта – для нулевых битов выводит пиксел цветом фона, а для единичных – цветом рисунка (коды цвета фона и рисунка он тоже берет из видеопамяти – из байта атрибутов). Вот так появляются на экране дисплея рисунки букв, как и все в компьютере, закодированные двоичными числами. При выводе изображений символов на печать коды изображений символов и их порядковые номера хранятся в памяти печатающего устройства либо постоянно, либо заносятся туда из памяти компьютера перед началом печати.

Статьи к прочтению:

Кодирование текстовой информации


Похожие статьи:

csaa.ru

Кодирование информации

Общие понятия

Определение 1

Кодирование — это преобразование информации из одной ее формы представления в другую, наиболее удобную для её хранения, передачи или обработки.

Определение 2

Кодом называют правило отображения одного набора знаков в другом.

Определение 3

Двоичный код – это способ представления информации с помощью двух символов — $0$ и $1$.

Определение 4

Длина кода – количество знаков, используемых для представления кодируемой информации.

Определение 5

Бит — это одна двоичная цифра $0$ или $1$. Одним битом можно закодировать два значения: $1$ или $0$. Двумя битами можно закодировать уже четыре значения: $00$, $01$, $10$, $11$. Тремя битами кодируются $8$ разных значений. Добавление одного бита удваивает количество значений, которое можно закодировать.

Рисунок 1.

Виды кодирования информации

Различают кодирование информации следующих видов:

Кодирование текстовой информации

Любой текст состоит из последовательности символов. Символами могут быть буквы, цифры, знаки препинания, знаки математических действий, круглые и квадратные скобки и т.д.

Текстовая информация, как и любая другая, хранится в памяти компьютера в двоичном виде. Для этого каждому ставится в соответствии некоторое неотрицательное число, называемое кодом символа, и это число записывается в память ЭВМ в двоичном виде. Конкретное соотношение между символами и их кодами называется системой кодировки. В персональных компьютерах обычно используется система кодировки ASCII (American Standard Code for Informational Interchange – Американский стандартный код для информационного обмена).

Замечание 1

Разработчики программного обеспечения создали собственные $8$-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Чтобы не было путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ — реализуют региональные языковые особенности.

Замечание 2

Восьмибитными кодировками, распространенными в нашей стране, являются KOI8, UTF8, Windows-1251 и некоторые другие.

Кодирование цвета

Чтобы сохранить в двоичном коде фотографию, ее сначала виртуально разделяют на множество мелких цветных точек, называемых пикселями (что-то на подобии мозаики). После разбивки на точки цвет каждого пикселя кодируется в бинарный код и записывается на запоминающем устройстве.

Пример 1

Если говорят, что размер изображения составляет, например, $512 х 512$ точек, это значит, что оно представляет собой матрицу, сформированную из $262144$ пикселей (количество пикселей по вертикали, умноженное на количество пикселей по горизонтали).

Пример 2

Прибором, «разбивающим» изображения на пиксели, является любая современная фотокамера (в том числе веб-камера, камера телефона) или сканер. И если в характеристиках камеры значится, например, «$10$ Mega Pixels», значит количество пикселей, на которые эта камера разбивает изображение для записи в двоичном коде, — 10 миллионов. Чем на большее количество пикселей разделено изображение, тем реалистичнее выглядит фотография в декодированном виде (на мониторе или после распечатывания).

Однако качество кодирования фотографий в бинарный код зависит не только от количества пикселей, но также и от их цветового разнообразия. Алгоритмов записи цвета в двоичном коде существует несколько. Самым распространенным из них является RGB. Эта аббревиатура – первые буквы названий трех основных цветов: красного – англ.Red, зеленого – англ. Green, синего – англ. Blue. Смешивая эти три цвета в разных пропорциях, можно получить любой другой цвет или оттенок.

На этом и построен алгоритм RGB. Каждый пиксель записывается в двоичном коде путем указания количества красного, зеленого и синего цвета, участвующего в его формировании.

Чем больше битов выделяется для кодирования пикселя, тем больше вариантов смешивания этих трех каналов можно использовать и тем значительнее будет цветовая насыщенность изображения.

Определение 6

Цветовое разнообразие пикселей, из которых состоит изображение, называется глубиной цвета.

Кодирование графической информации

Описанная выше техника формирования изображений из мелких точек является наиболее распространенной и называется растровой. Но кроме растровой графики, в компьютерах используется еще и так называемая векторная графика.

Векторные изображения создаются только при помощи компьютера и формируются не из пикселей, а из графических примитивов (линий, многоугольников, окружностей и др.).

Векторная графика — это чертежная графика. Она очень удобна для компьютерного «рисования» и широко используется дизайнерами при графическом оформлении печатной продукции, в том числе создании огромных рекламных плакатов, а также в других подобных ситуациях. Векторное изображение в двоичном коде записывается как совокупность примитивов с указанием их размеров, цвета заливки, места расположения на холсте и некоторых других свойств.

Пример 3

Чтобы записать на запоминающем устройстве векторное изображение круга, компьютеру достаточно в двоичный код закодировать тип объекта (окружность), координаты его центра на холсте, длину радиуса, толщину и цвет линии, цвет заливки.

В растровой системе пришлось бы кодировать цвет каждого пикселя. И если размер изображения большой, для его хранения понадобилось бы значительно больше места на запоминающем устройстве.

Тем не менее, векторный способ кодирования не позволяет записывать в двоичном коде реалистичные фото. Поэтому все фотокамеры работают только по принципу растровой графики. Рядовому пользователю иметь дело с векторной графикой в повседневной жизни приходится не часто.

Кодирование числовой информации

При кодировании чисел учитывается цель, с которой цифра была введена в систему: для арифметических вычислений или просто для вывода. Все данные, кодируемые в двоичной системе, шифруются с помощью единиц и нолей. Эти символы еще называют битами. Этот метод кодировки является наиболее популярным, ведь его легче всего организовать в технологическом плане: присутствие сигнала – $1$, отсутствие – $0$. У двоичного шифрования есть лишь один недостаток – это длина комбинаций из символов. Но с технической точки зрения легче орудовать кучей простых, однотипных компонентов, чем малым числом более сложных.

Замечание 3

Целые числа кодируются просто переводом чисел из одной системы счисления в другую. Для кодирования действительных чисел используют $80$-разрядное кодирование. При этом число преобразуют в стандартный вид.

Кодирование звуковой информации

Определение 7

Любой звук, слышимый человеком, является колебанием воздуха, которое характеризируется двумя основными показателями: частотой и амплитудой. Амплитуда колебаний — это степень отклонения состояния воздуха от начального при каждом колебании. Она воспринимается нами как громкость звука. Частота колебаний — это количество отклонений состояний воздуха от начального за единицу времени. Она воспринимается как высота звука.

Пример 4

Так, тихий комариный писк — это звук с высокой частотой, но с небольшой амплитудой. Звук грозы наоборот имеет большую амплитуду, но низкую частоту.

Схему работы компьютера со звуком в общих чертах можно описать так. Микрофон превращает колебания воздуха в аналогичные по характеристикам электрических колебаний. Звуковая карта компьютера преобразовывает электрические колебания в двоичный код, который записывается на запоминающем устройстве. При воспроизведении такой записи происходит обратный процесс (декодирование) — двоичный код преобразуется в электрические колебания, которые поступают в аудиосистему или наушники. Динамики акустической системы или наушников имеют противоположное микрофону действие. Они превращают электрические колебания в колебания воздуха.

Принцип разделения звуковой волны на мелкие участки лежит в основе двоичного кодирования звука. Аудиокарта компьютера разделяет звук на очень мелкие временные участки и кодирует степень интенсивности каждого из них в двоичный код. Такое дробление звука на части называется дискретизацией. Чем выше частота дискретизации, тем точнее фиксируется геометрия звуковой волны и тем качественней получается запись.

Определение 8

Качество записи сильно зависит также от количества битов, используемых компьютером для кодирования каждого участка звука, полученного в результате дискретизации. Количество битов, используемых для кодирования каждого участка звука, полученного при дискретизации, называется глубиной звука.

Кодирование видеозаписи

Видеозапись состоит из двух компонентов: звукового и графического.

Кодирование звуковой дорожки видеофайла в двоичный код осуществляется по тем же алгоритмам, что и кодирование обычных звуковых данных. Принципы кодирования видеоизображения схожи с кодированием растровой графики (рассмотрено выше), хотя и имеют некоторые особенности. Как известно, видеозапись — это последовательность быстро меняющихся статических изображений (кадров). Одна секунда видео может состоять из $25$ и больше картинок. При этом, каждый следующий кадр лишь незначительно отличается от предыдущего.

Учитывая эту особенность, алгоритмы кодирования видео, как правило, предусматривают запись лишь первого (базового) кадра. Каждый же последующий кадр формируются путем записи его отличий от предыдущего.

spravochnick.ru

Кодирование текстовой информации — Kompsammaster

Презентация к уроку по информатике и икт (9 класс) по теме: Кодирование текстовой информации

Слайд 1

Кодирование текстовой информации Автор: Сергеева Светлана Александровна, учитель информатики МБОУ СОШ № 27 , г. Дзержинска, Нижегородской обл.

Слайд 2

Текстовая информация – это информация, выраженная с помощью естественных или формальных языков в письменной форме.

Слайд 3

Двоичное кодирование текстовой информации Для кодирования 1 символа используется 1 байт информации. 1 байт 256 символов 66 букв русского алфавита 52 буквы английского алфавита 0-9 цифры Знаки препинания

Слайд 4

При двоичном кодировании текстовой информации каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, свой уникальный код от 00000000 до 11111111 (десятичный код от 0 до 255 ).

Слайд 5

Присвоение символу конкретного двоичного кода – это вопрос соглашения, которое фиксируется в кодовой таблице. Кодовая таблица – таблица , в которой устанавливается соответствие между числовыми кодами и символами.

Слайд 6

0 – 32 функциональные клавиши и операции: перевод строки, ввод пробела и т.д. 33 – 127 интернациональные: соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Слайд 8

128 – 255 национальные (кириллица), т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.

Слайд 9

Кодировки знаков Двоичный код Десятичный код КОИ8 CP1251 CP866 Mac ISO 0000 0000 0 ……… 0000 1000 8 Удаление последнего символа (клавиша Backspace) ……… 0000 1101 13 Перевод строки (клавиша Enter ) ……… 0010 0000 32 Пробел 0010 0001 33 ! ……… 0101 1010 90 Z ……… 0111 1111 127  ……… 128 — Ъ А А К ……… 1100 0010 194 Б В — — Т ……… 1100 1100 204 Л М : :

kompsammaster.ru

Сценария урока по информатике «Кодирование текста» (9 класс)

Практическая работа «Кодирование текстовой информации. Определение числовых кодов символов и перекодировка русскоязычного текста в текстовом редакторе».

15. Организация деятельности учащихся на уроке:

-самостоятельно выходят на проблему и решают её;

-самостоятельно определяют тему, цели урока;

-рефлектируют.

Приветствие, постановка целей и задач урока, психологический настрой

— Добрый день, ребята! На столах у вас по три смайлика, выберите тот, который соответствует вашему настроению.

— Как много улыбок засветилось. Спасибо!

— А это моё настроение… Я готова продуктивно сотрудничать с вами. Удачи!

2. Актуализация знаний и фиксация затруднений в деятельности.

● ▬ ▬ ●● ▬ ▬ ▬ ● ▬ ● ▬ ▬ ▬ ●● ▬

 или в двоичном коде: 01100111010111001

Таким образом, получили двоичный код слова «память»

А теперь попробуем расшифровать следующий код: 001010111101

● ● ▬ ● ▬ ●▬ ▬ ▬ ▬ ● ▬

Кто справился? У кого нет ответа?

Учитель:Что вы не смогли сделать?

Учитель:Рассмотрите это задание. Что мешает вам расшифровать его?

С остальными буквами ситуация не легче.

3. Выявление причин затруднения и постановка цели деятельности.

Учитель: Значит в чем причина затруднения?

Учитель: Сформулируйте цель урока.

Учитель: Сформулируйте тему урока.

Запишите в тетрадь число и тему урока.

4.Построение проекта выхода из затруднения.

Учитель: Что вам может помочь в достижении цели?

Учитель: Составьте план действий.

5. Первичное закрепление во внешней речи.

Историческая справка (слайд 3, 4)

Учитель: А что происходит, когда символ выводится на  экран монитора?

 (слайд 5)

Учитель: А если много символов подряд вводится? Компьютер также как и мы запутается, но мы знаем, что компьютер – бездумный исполнитель алгоритмов. Как  же ему помочь?

Учитель: Если мы  сделаем длину кода (количество двоичных цифр в коде) постоянной?

Например,  код символа  “d”  –  1100100 (7 цифр)

“я”  – 11101111 ( 8 цифр) 

Как можно сделать одинаковую длину? Какая длина должна быть?

Почему?

Учитель:Запомнить! Цепочка из 8 «0» и «1» называется БАЙТ. (слайд 6)

Учитель:Что нужно сделать с кодами  длина которых меньше 8-ми? Если мы к любому десятичному числу припишем  слева «0» или несколько нулей, оно измениться?

Учитель:А  код  – это тоже число, только двоичное. Можем дописать столько «0», сколько не хватает до 8-ми цифр.

Тогда код символа  “d”  –  01100100 (8 цифр). (слайд 7, 8)

Учитель:Теперь  осталось определить какой код –  какому символу соответствует. Для этого  была  создана  кодовая таблица ASCII(American Standard Code  for Information  Interchange).  В таблице каждому символу компьютерного алфавита (т.е. символы, которые можно набрать с помощью клавиатуры ) ставится в соответствие  двоичное число. (слайд 9, 10)

Учитель: Кодовая таблица в система Windows (слайд 11)

Учитель:Теперь компьютер может поделить весь двоичный код на группы по 8 символов и бездумно декодировать их. 

Учитель:Знакомимся с другими таблицами кодировки: кодировка русского алфавита, таблица кодировки Unicode, таблицы кодировки русскоязычных символов (слайд 12, 13, 14, 15).

Учитель:Кодирования символов в различных таблицах (слайд 16)

6. Первичное закрепление во внешней речи. Самостоятельная работа с самопроверкой.

Учитель: Задание 1. Закодировать с помощью ASCII-таблицы: «Информатике учиться всегда пригодится».

  1. Включение в систему знаний и повторение.

Задание 2. Декодировать с помощью ASCII-таблицы:
11010000 10010100 11010000 10111110 11010001 10000000 11010000 10111110 11010000 10110011 11010001 10000011 100000 11010000 10111110 11010001 10000001 11010000 10111000 11010000 10111011 11010000 10111000 11010001 10000010 100000 11010000 10111000 11010000 10110100 11010001 10000011 11010001 10001001 11010000 10111000 11010000 10111001 101100 100000 11010000 10110000 100000 11010000 10111000 11010000 10111101 11010001 10000100 11010000 10111110 11010001 10000000 11010000 10111100 11010000 10110000 11010001 10000010 11010000 10111000 11010000 10111010 11010001 10000011 100000 101101 100000 11010000 10111100 11010001 10001011 11010001 10000001 11010000 10111011 11010001 10001111 11010001 10001001 11010000 10111000 11010000 10111001 

  1. Рефлексия деятельности

— Исследование какой темы вели на уроке?

— Какие понятия разобрали?

— Удалось решить поставленную задачу?

— Каким способом?

— Какие получили результаты?

— Что нужно сделать ещё?

— Где можно применить новые знания?

— Оцените свою работу на уроке. Работу класса

— Выберите смайлик своего настроения. Изменилось ли оно? Почему?

  1. Домашнее задание произвести кодирование стихотворения из 4-х строк (до 100 символов), п. 3.1. (слайд 19)

Технологическая карта урока

Название используемых ЭОР

(с указанием порядкового номера из Таблицы 2)

Деятельность учителя

(с указанием действий, например, демонстрация ЭОР)

Деятельность ученика

УУД

Время

(в мин.)

1

Организационный момент (мотивация к учебной деятельности)

1

Приветствие, постановка целей и задач урока, психологический настрой

— Добрый день, ребята! На столах у вас по три смайлика, выберите тот, который соответствует вашему настроению.

— Как много улыбок засветилось. Спасибо!

— А это моё настроение… Я готова продуктивно сотрудничать с вами. Удачи!

Выбирают смайлик и демонстрируют своё настроение

Самоопределение, смыслообразование (Л)

Целеполагание (П)

Планирование учебного сотрудничества (К)

2

2

Актуализация знаний

2

1

  1. Вспомните. Чем мы занимались на последних уроках информатики?

  2. Какие коды мы еще знаем, вспомните, какими способами мы шифровали информацию? (обсуждаем ответы)

На слайде азбука «Морзе» (слайд 2)

Сколько знаков используется в данном коде?

Какие это знаки?

Что это вам напоминает?

Заменим «●» – на «0» , «▬» –  на «1»

Давайте зашифруем слово «память»:

● ▬ ▬ ●● ▬ ▬ ▬ ● ▬ ● ▬ ▬ ▬ ●● ▬

 или в двоичном коде: 01100111010111001

Таким образом, получили двоичный код слова «память»

А теперь попробуем расшифровать следующий код: 001010111101

● ● ▬ ● ▬ ●▬ ▬ ▬ ▬ ● ▬

Кто справился? У кого нет ответа?

Что вы не смогли сделать?

Рассмотрите это задание. Что мешает вам расшифровать его?

С остальными буквами ситуация не легче.

Значит в чем причина затруднения?

Сформулируйте цель урока.

Сформулируйте тему урока.

Запишите в тетрадь число и тему урока.

Что вам может помочь в достижении цели?

Составьте план действий.

Историческая справка (слайд 3, 4)

1.Узнали, что всякая информация в ПК представляется в виде «0» и «1», т.е. в двоичном коде

2. Азбука Морзе, числа.

Два

«точка» и «тире»

Два символа -двоичный код

«урок»

Мы не смогли расшифровать слово одним способом.

Первой буквой может быть Е (●  ), И(● ●) , У(● ● ▬ ), Ф(● ● ▬ ● .

Много кодов подходит, потому что не знаем длины кода, она всегда разная, посмотрим таблицу : длина ровна от 1 до 6

узнать как кодируются текстовая информация в памяти компьютера.

Кодирование текстовой информации

Изученное на прошлом уроке.

Чтобы кодировать информацию нужно сделать одинаковую длину кода

Анализ объектов с целью выделения признаков; подведение под понятие; целеполагание (П)

Выполнение пробного учебного действия; фиксирование индивидуального затруднения; саморегуляция в ситуации затруднения (Р)

Выражение своих мыслей; аргументация своего мнения; учёт разных мнений (К)

6

3

Проблемное объяснение нового знания

1

Что происходит в компьютере, когда мы нажимаем какую-либо клавишу на клавиатуре?

А что происходит, когда символ выводится на  экран монитора?

 (слайд 5)

А если много символов подряд вводится? Компьютер также как и мы запутается, но мы знаем, что компьютер – бездумный исполнитель алгоритмов. Как  же ему помочь?

Если мы  сделаем длину кода (количество двоичных цифр в коде) постоянной?

Например,  код символа  “d”  –  1100100 (7 цифр)

“я”  – 11101111 ( 8 цифр) 

Как можно сделать одинаковую длину? Какая длина должна быть?

Почему?

Запомнить! Цепочка из 8 «0» и «1» называется БАЙТ. (слайд 6)

Что нужно сделать с кодами  длина которых меньше 8-ми? Если мы к любому десятичному числу припишем  слева «0» или несколько нулей, оно измениться?

А  код  – это тоже число, только двоичное. Можем дописать столько «0», сколько не хватает до 8-ми цифр.

Тогда код символа  “d”  –  01100100 (8 цифр). (слайд 7, 8)

Теперь  осталось определить какой код –  какому символу соответствует. Для этого  была  создана  кодовая таблица ASCII(American Standard Code  for Information  Interchange).  В таблице каждому символу компьютерного алфавита (т.е. символы, которые можно набрать с помощью клавиатуры ) ставится в соответствие  двоичное число. (слайд 9, 10)

Кодовая таблица в система Windows (слайд 11)

Теперь компьютер может поделить весь двоичный код на группы по 8 символов и бездумно декодировать их. 

Знакомимся с другими таблицами кодировки: кодировка русского алфавита, таблица кодировки Unicode, таблицы кодировки русскоязычных символов (слайд 12, 13, 14, 15).

Кодирования символов в различных таблицах (слайд 16)

Задание. Декодировать текст с помощью кодовой таблицы ASCII 111 109 112 117 116 101 114 (слайд 17)

Задание. Работа в текстовом редакторе MS Word (слайд 18)

Происходит кодирование нажатого символа при помощи двоичного кода и запись полученного кода передается в оперативную память.

Происходит обратный процесс – декодирование  (в памяти двоичный код , а на экране символ )

Надо выбрать максимальную из возможных длин (8).

Чтобы было возможно закодировать символы  код которых имеет длину 8.

Нет.

Обучающимся раздаются соответствующие кодовые таблицы, декодируют текст и получают computer.

Обучающиеся выполняют задание на компьютере в MS Word.

Поиск и выделение информации; синтез как составление целого из частей; подведение под понятие; выдвижение гипотез и их обоснование; самостоятельное создание способа решения проблемы поискового характера (П)

Аргументация своего мнения и позиции в коммуникации; учёт разных мнений (К)

16

Физическая минутка.

4

Закрепление

2

Практическое задание выполняется

Задание 1. Закодировать с помощью ASCII-таблицы: «Информатике учиться всегда пригодится».
Задание 2. Декодировать с помощью ASCII-таблицы:
11010000 10010100 11010000 10111110 11010001 10000000 11010000 10111110 11010000 10110011 11010001 10000011 100000 11010000 10111110 11010001 10000001 11010000 10111000 11010000 10111011 11010000 10111000 11010001 10000010 100000 11010000 10111000 11010000 10110100 11010001 10000011 11010001 10001001 11010000 10111000 11010000 10111001 101100 100000 11010000 10110000 100000 11010000 10111000 11010000 10111101 11010001 10000100 11010000 10111110 11010001 10000000 11010000 10111100 11010000 10110000 11010001 10000010 11010000 10111000 11010000 10111010 11010001 10000011 100000 101101 100000 11010000 10111100 11010001 10001011 11010001 10000001 11010000 10111011 11010001 10001111 11010001 10001001 11010000 10111000 11010000 10111001 

выполняется в группах, каждой группе необходимо закодировать слово, затем расставить полученные слова так, чтобы получилось предложение). В группе договариваются кто будет вводить правильный ответ в интеллектуальную карту

Анализ объектов с целью выделения признаков и синтез как составления целого из частей; подведение под понятие; выдвижение гипотез и их обоснование (П)

Выражение своих мыслей с полнотой и точностью; формулирование и аргументация своего мнения; учёт разных мнений (К)

Оценивание усвоенного содержания (Л)

Контроль, коррекция, оценка (Р)

16

5

Итог урока (рефлексия деятельности)

2

1

— Исследование какой темы вели на уроке?

— Какие понятия разобрали?

— Удалось решить поставленную задачу?

— Каким способом?

— Какие получили результаты?

— Что нужно сделать ещё?

— Где можно применить новые знания?

— Оцените свою работу на уроке. Работу класса

— Выберите смайлик своего настроения. Изменилось ли оно? Почему?

Домашнее задание произвести кодирование стихотворения из 4-х строк (до 100 символов), п. 3.1. (слайд 19)

Дают ответы на вопросы

Анализируют работу на уроке через самооценку

Записывают домашнее задание

Рефлексия способов и условий действия; контроль и оценка процесса и результатов деятельности (П)

Самооценка; адекватное понимания причин успеха или неуспеха в УД; следование в поведении моральным нормам и этическим требованиям (Л)

Выражение своих мыслей полно и точно; формулирование и аргументация своего мнения, учёт разных мнений (К)

5

Приложение 1

  1. Организационный момент (мотивация к учебной деятельности) I этап урока

«Покажи своё лицо»

infourok.ru

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *