Как кодируется текстовая информация: Урок 14. кодирование текстовой информации — Информатика — 10 класс

Содержание

Урок 14. кодирование текстовой информации — Информатика — 10 класс

Информатика, 10 класс. Урок № 14.

Тема — Кодирование текстовой информации

Цели и задачи урока:

— познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

— познакомиться со способом определения информационного объема текстового сообщения;

— познакомиться с алгоритмом Хаффмана.

Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:

N=2i, где

N — это количество вариантов,

i — это количество бит, не обходимых для кодирования.

Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.

N=2i, где N — кол-во возможных вариантов

i — кол-во бит, потребуемых для кодирования

Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы.

Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков. На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст. Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

АЛГОРИТМ ХАФФМАНА

Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

Пусть нам дано сообщение aaabcbeeffaabfffedbac.

Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.

Шаг 1.

Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:

У вас должно получиться:

Шаг 2.

Расположите буквы в порядке возрастания их частоты.

Шаг 3.

Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.

Символы d и c превращаются в ветку дерева:

Шаг 4.

Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.

Итак, сортируем таблицу:

Шаг 5.

Объединяем символ e и символ cd в ветку дерева:

d

C

Шаг 6.

Сортируем:

Шаг 7.

Шаг 8.

Сортируем:

Шаг 9.

Шаг 10.

Сортируем:

Шаг 11.

Шаг 12.

Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

Шаг 13.

Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.

Тогда код для каждой буквы будет:

Задание №1

Закодируйте ASCII кодом слово MOSCOW.

Решение:

Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:

M

O

S

C

O

W

1001101

1001111

1010011

1000011

1001111

1110111

ОТВЕТ: 100110110011111010011100001110011111110111

Задание №2

Используя табличный код Windows1251, закодируйте слово КОМПЬЮТЕР.

Решение:

К

О

М

П

Ь

Ю

Т

Е

Р

234

206

204

239

252

254

242

197

208

Ответ: 234206204239252254242197208

Задание №3

Используя алгоритма Хаффмана, закодируйте сообщение: Россия

Решение:

Давайте все левые ветви обозначим «1», а правые – «0»

Таким образом: С — 0, Р — 101, О — 100, И — 111, Я — 110

ОТВЕТ: 10110000111110

Кодирование текстовой информации

Представление информации в текстовой форме, сыгравшее огромную роль в развитии человеческой цивилизации, является одним из наиболее универсальных. Обработка текста с помощью компьютера стала доступной уже в 60-е годы прошлого века.

Текстовая информация состоит из набора символов, значит, она изначально дискретна. Поэтому нет необходимости проводить процессы дискретизации и квантования как в случае кодирования графической и звуковой информации.

При кодирование текстовой информации каждому символу ставится в соответствие уникальный десятичный номер в некотором алфавите, представленный в двоичном коде. Такое правило сопоставления кодов и символов алфавита называется кодировкой текста.

Стандарты кодирования.

Первый широко известный стандарт кодирования текста был принят в 1963 году и получил название ASCII (American Standard Code for Information Interchange) – американский стандартный код для обмена информацией). Таблица кодирования содержала символы латинского алфавита, цифры, набор управляющих символов и некоторые знаки препинания.

Таблица 1. Кодировка ASCII

В таблице 1 код ASCII представлен в свернутой шестнадцатеричной форме.

Если развернуть в двоичную форму код превращается в семиразрядные двоичные числа (например, код 0D16 (CR) означает возврат каретки (переход к началу строки)).

В кодовой таблице ASCII соблюдается алфавитная последовательность кодировки прописных и строчных букв. Это свойство имеет важное значение для программной обработки символьной информации.

Изначально в стандарте ASCII использовался семиразрядный двоичный код. Всего можно было закодировать 27 = 128 символов. Затем, код ASCII расширили за счет добавления 8-го бита (28 = 256 символов). Первая половина восьмиразрядной кодировки совпадает с ASCII, а во второй, получившей название кодовой страницы (CP – code page), — содержатся представления символов национальных алфавитов и некоторых других знаков. Для русского языка в разных операционных системах используются свои кодовые страницы, например, Windows — CP1251, MS DOS – CP866.

Однобайтные кодировки имеют определенные неудобства, одно из которых недостаточно большое количество кодовых слов для использования одновременно нескольких языков. Для решения этих проблем в 1991 году был разработан шестнадцатиразрядный международный стандарт символьного кодирования Unicode, который позволяет закодировать 216 = 65536 символов.

Более поздние разработки стандарта Unicode за счет более сложной организации кода, при сохранении 16-ти разрядности, позволяют кодировать 1112064 символов. Таким образом, Unicode позволяет использовать в одном тексте символы алфавитов любых языков мира, в том числе и «мертвых».

Кодирование текстовой информации — Кодирование информации


Кодирование текстовой информации

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества — письменность и арифметика — есть не что иное, как система кодирования речи и числовой информации.

Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц — машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Рис.1 Представление символа в виде двоичного кода.

            Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы — это возможные события): К = 2I = 28 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

  Такое количество символов вполне достаточно для пред­ставления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange — Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Код

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 — 127

0100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Символ 32 — пробел, т.е. пустая позиция в тексте.

Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Рис. 2 Первая половина таблицы кодировки ASCII.

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Рис.3 Вторая половина таблицы кодировки ASCII.


К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Рис.4  Кодировка КОИ8.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Рис.5  Кодировка CP866 .

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Рис.6 Кодировка  Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Рис. 7 Кодировка ISO 8859-5. 


Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

Рис. 8 Кодировка CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

Рис.9 Кодировка Unicode.

Это 16-разрядная кодировка, т. е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Слова

Память

file

01100110

01101001

01101100

01100101

disk

01100100

01101001

01110011

01101011

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать — на экране монитора видна какая-то «абракадабра». Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

Рис. 10.

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Кодирование текстовой информации

Кодирование текстовой информации

Введение

Если у вас имеются какие-либо непонимания с такой темой, как «Кодирование текстовой информации», то записывайтесь ко мне на индивидуальный урок по информатике. На репетиторском уроке мы с вами детально разберем абсолютно все возникшие у вас вопросы и прорешаем колоссальное количество тематических упражнений.

Общие сведения о текстовой информации

На текущий момент времени большая часть всей информации, находящейся в сети Интернет, представлена в виде текста на различных национальных языках. Персональные компьютеры еще со времен 60-х годов научились правильно распознавать, обрабатывать, хранить и передавать текстовую информацию. Сложно себе представить современный и актуальный вебсайт, который не содержит ни одного символа. Ежедневно глобальная паутина пополняется десятками миллионов текстовых публикаций различного объема. Все поисковые системы в основном «заточены» на релевантный поиск веб-страниц в соответствии с текстовым запросом пользователей.

Не стоит забывать о том, что процессор любого компьютера, любой марки, любого бренда способен обрабатывать информацию, выраженную комбинацией только из 0 и 1. Следовательно, текстовая информация также должна быть преобразована в двоичный набор кодов. Значит, существует некий алгоритм, позволяющий кодировать текстовую информацию в вид, понятный процессору компьютера.

Свойства текстовой информации

Давайте выделим ключевые свойства, которыми должны обладать текстовые материалы:

  • Ценность

  • Новизна

  • Полезность

  • Адекватность

  • Истинность

Что можно понимать под ценностью текстовой информации? Ценность информации – пожалуй, одно из основных свойств любой информации. Если информация для пользователя не является ценной, аксиологически значимой, то она для него не является информативной. Разные читали по-разному воспринимают ценность информации. Для одного – новая, самая свежая информация, для другого – полная, детально разобранная информация о каком-либо объекте или событии. Лично для меня ценна та текстовая информация, которая написана понятным мне языком и глубоко освещает проблематику, на которую она ориентирована. Думаю, что всем знаком такой ресурс, как Википедия. На мой взгляд, авторы данного популярнейшего ресурса очень структурированно и полно описывают события в текстовых публикациях.

Что можно понимать под новизной информации? Думаю, здесь всем понятно, что означает данное свойство из самого названия. Любой текстовый материал должен содержать в своем контексте какую-то новизну, описание проблемы, которую раньше никто еще пристально не рассматривал. Как правило, новая текстовая информация является актуальной, но далеко не факт, что она является полной или достоверной, истинной.

Что можно понимать под полезностью информации? Свойство полезности и ценности очень сильно коррелируют между собой. Как правило ценная текстовая информация одновременно является и полезной. Для меня полезной является та информация, которая помогает решить спонтанно возникшую у меня проблему. Данная информация может быть неновой, неполной, недостоверной и даже неактуальной. Например, если вам требуется написать реферат на тему «Что такое текстовая информация?», и вы, прочитав данный материал, какие-то мысли позаимствовали отсюда, это означает, что данная статья для вас является полезной. Хотя с другой стороны, это информация не новая и давно хорошо изученная различными экспертами.

Что можно понимать под адекватностью информацию? Под адекватностью следует понимать то, насколько текстовое описание объекта или события соответствует в реальности описываемому объекту или событию. Если, например, в какой-либо статье говорится про задачи по программированию, а в решении приводятся стереометрические математические построения, то данная информация не является адекватной, так как упражнения по программированию в первую очередь связаны с написание программного кода. Информация в такой статье не будет являться адекватной.

Что можно понимать под истинностью информации? Под истинностью текстовой информации следует понимать то, насколько описываемые характеристики какого-либо объекта соответствуют его реальным характеристикам. Например, если мы будем утверждать следующее: для того, чтобы получить на экзамене ГИА или ЕГЭ по информатике 100 баллов, нам не нужно уметь программировать. Данная информация не является истинной. И не умея программировать, не удастся решить все упражнения на экзамене. С другой стороны, нельзя эту информацию считать неадекватной, но, не зная ни одного языка программирования, какое-то количество баллов все-таки можно получить. Или еще пример, если мы скажем, что текущий президент Российской Федерации Борис Николаевич Ельцин, это тоже ложная информация. Да, он был когда-то президентом, но в данный момент таковым не является. Это уже неактуальная информация, она устарела.

В данном примере наш тезис про президента является:

  • Не ценным, так как информация устаревшая и недостоверная.

  • Новым для нас, так как раньше нам об этом никто не писал.

  • Не полезным, так как никакого профита мы не получили, прочитав данное утверждение.

  • Адекватным, так как Ельцин Б.Н. когда-то был президентом.

  • Ложным, так как в настоящий момент времени президентом РФ является другой человек.

Что такое кодировочная таблица

Для кодирования текстовой информации в двоичные коды, понятные процессору персонального компьютера, необходимо прибегать к специальным кодировочным таблицам. Давайте представим, что мы напечатали какое-то предложение в текстовом редакторе, например, «Подготовка к ГИА и ЕГЭ» и решили сохранить документ на жесткий диск нашего ПК. Информация любого формата перед тем, как записаться на жесткий диск проходит этап кодирования. В результате наше предложение «Подготовка к ГИА и ЕГЭ» после кодирования преобразуется в двоичный набор, состоящий из цепочек 0 и 1. Но каков алгоритм этого кодирования? Все очень просто!

Существует специальная таблица, в которой представлены абсолютно все символы компьютерного алфавита, и каждому такому символу соответствует некий, строго заданный двоичный код. Для разных типов электронно-вычислительных машин применяются различные кодировки.

Самой распространенной кодировочной таблицей в начале 2000-го года являлась таблица кодировки ASCII. ASCII – American Standard Code for Information Interchange, или американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов. Первая половина этой таблицы (это 128 двоичных кодов) является стандартной, так как в нее входит буквы латинского алфавита, цифры, знаки препинания, скобки, а также так называемые непечатаемые символы. Вторая половина (это 128 двоичных кодов), как правило, содержит символы национального алфавита.

Кстати, в настоящее время существует пять различных кодировочных таблиц для русских букв:

  • КОИ-8

  • CP1251

  • CP866

  • ISO

  • Mac

С одной стороны, кажется, что удобно иметь столько вариантов кодирования текстовой информации, записанной на русском языке, а с другой – имеется большая проблема с совместимостью и соответствию двоичных кодов в разных кодировочных таблицах.

Ассоциация символа и кода символа

Давайте более детально поговорим об анатомии кодировочных таблиц и непосредственно о самом алгоритме кодирования текстовой информации. В качестве примера возьмем на рассмотрение кодировочную таблицу ASCII. Как мы раньше поняли, первая половина этой таблицы является строго стандартной и не содержит кодов ни одного русского символа. Рассмотрим вторую половину таблицы ASCII. Сразу хочу заметить, что двоичных кодов для букв ‘ё’ и ‘Ё’ в таблице нет.

Вернемся к исследованию предложения «Подготовка к ГИА и ЕГЭ». Как видно, данное предложение содержит достаточно много различных букв из русского алфавита, а также имеются повторяющиеся буквы, например, буквы ‘о’, ‘а’, ‘к’, ‘Г’ и др. Сразу небольшая оговорка: одна и та же малая и большая буквы имеют различный двоичный код в таблице ASCII, то есть буквы ‘а’ и ‘А’ будут кодироваться различным набором из 0 и 1.

Для простоты можете представить себе таблицу ASCII как таблицу, состоящую из двух колонок: в первой колонке указывается физический символ, а во второй колонке указывается двоичный код, соответствующий символу из первой колонки. Я лишь приведу небольшой фрагмент второй половины таблицы ASCII:

Символ русского алфавита

Двоичный код символа

‘А’

11000000

‘Б’

11000001

‘В’

11000010

‘Г’

11000011

‘Я’

11011111

‘а’

11100000

‘я’

11111111

Когда процессор ПК встречает в тексте символ ‘В’, он его заменяет на двоичный восьмиразрядный код 11000010, а если букву ‘а’, то на 111000.

Сходу возникает вопрос: а почему отводится восемь позиций на двоичный код символа при кодировании текстовой информации? Потому что для хранения одного символа будет задействован 1 байт информации или 8 бит. Таким образом устроена кодировочная таблица ASCII. Отсюда вытекает умозаключение, что максимальное количество закодированных символов в таблице ASCII не может превышать 256, так как 28 = 256. Существует кодировочная таблица, называемая Unicode, вот она при кодировании текстовой информации преобразует символы в шестнадцатипозиционный двоичный код. Это связано с тем, что для хранения одного символа задействуется 2 байта памяти или 16 бит информации. Следовательно, таблица Unicode может кодировать до 216 = 65536 различных символов.

Еще одной важной характеристикой кодировочных таблиц является то, что символы в ней упорядочены в соответствии с национальным алфавитом. В русском алфавите за буквой ‘а’, следует буква ‘б’, затем буква ‘в’ и так далее. Также можно заметить, что в строках кодировочных таблиц сначала следуют заглавные буквы национального алфавита, а затем строчные, а, следовательно, и соответствующие двоичные коды заглавных букв будут меньше соответствующих кодов строчных букв.

Давайте произведем кодирование текстовой информации, а конкретно предложения «Подготовка к ГИА и ЕГЭ». Для этого построим таблицу, в которой каждому символу русского алфавита сопоставим двоичный код из кодировочной таблицы ASCII. Разделители между словами, то есть знаки пробела, также закодируем.

П

о

д

г

о

т

о

в

к

а

11001111

11101110

11100100

11100011

11101110

11110010

11101110

11100010

11101010

11100000

 

 

к

 

Г

И

А

 

и

 

Е

Г

Э

00100000

11101010

00100000

11000011

11001000

11000000

00100000

11101000

00100000

11000101

11000011

11011101

То есть перед тем, как записать текстовое предложение «Подготовка к ГИА и ЕГЭ» на жесткий диск, компьютер произведет кодирование текстовой информации и получит следующий бинарный код:

11001111111011101110010011100011111011101111001011101110111000101110101011100000001000001110101000100000110000111100100011000000001000001110100000100000110001011100001111011101

А вот подобные цепочки, наборы из 0 и 1 прекрасно распознаются процессором и он максимально оперативно произведет всю необходимую обработку над ними.

Если у вас остались какие-либо вопросы, связанные с кодирование текстовой информации, то записывайтесь ко мне на индивидуальный урок. На моих уроках мы с вами еще более детально погрузимся в область кодирования текстовой информации и рассмотрим внушительное количество ценных, полезных и актуальных примеров.

Кодирование текстовой информации — Информа.


   Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.
Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно
    Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов.
    Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т. д.
    Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.
    Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.
    Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.
    Кодирование текстовой информации с помощью байтов опирается на несколько различных стандартов, но первоосновой для всех стал стандарт ASCII (American Standart Code for Information Interchange), разработанный в США в Национальном институте ANSI (American National Standarts Institute).
    В системе ASCII закреплены две таблицы кодирования — базовая и расширенная.
    Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.
    Первые 33 кода (с 0 до 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).
    Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
    Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.
Например,  ASCII коды букв латинского алфавита:
    Тогда слово COMPUTER с помощью ASCII таблицы кодируется следующим образом:
C
O
M
P
U
T
E
R
67
79
77
80
85
84
69
82
01000011
01001111
01001101
01010000
01010101
01010100
01000101
01010010
    С распространением современных информационных технологий в мире возникла необходимость кодировать символы алфавитов других языков: японского, корейского, арабского, хинди, а также других специальных символов.
    На смену старой системе пришла новая универсальная – UNICODE, в которой один символ кодируется не одним, а двумя байтами.
    В настоящее время существует много различных кодовых таблиц (DOS, ISO, WINDOWS, KOI8-R, KOI8-U, UNICODE и др.), поэтому тексты, созданные в одной кодировке,  могут не правильно отображаться в другой.

Глава 3 Кодирование текстовой и графической информации. Информатика: аппаратные средства персонального компьютера

Глава 3

Кодирование текстовой и графической информации

3.1. Кодирование текстовой информации

При вводе текстовой информации в компьютер символы (буквы, цифры, знаки) кодируются с помощью различных кодовых систем, которые состоят из набора кодовых таблиц, размещенных на соответствующих страницах стандартов для кодирования текстовой информации. В таких таблицах каждому символу присваивается определенный числовой код в шестнадцатеричной или десятичной системе счисления, т. е. кодовые таблицы отражают соответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. При вводе текстовой информации с помощью клавиатуры компьютера каждый вводимый символ подвергается кодированию, т.  е. преобразуется в числовой код, при выводе текстовой информации на устройство вывода компьютера (дисплей, принтер или плоттер) по числовому коду символа строится его изображение. Присвоение символу определенного числового кода является результатом соглашения между соответствующими организациями разных стран. В настоящее время нет единой универсальной кодовой таблицы, удовлетворяющей буквам национальных алфавитов разных стран.

Современные кодовые таблицы включают в себя международную и национальную части, т. е. содержат буквы латинского и национального алфавитов, цифры, знаки арифметических операций и препинания, математические и управляющие символы, символы псевдографики. Международная часть кодовой таблицы, базирующаяся на стандарте ASCII (American Standard Code for Information Interchange), кодирует первую половину символов кодовой таблицы с числовыми кодами от 0 до 7F16, или в десятичной системе счисления от 0 до 127. При этом коды от 0 до 2016 (0 ? 3210) отведены функциональным клавишам (F1, F2, F3 и т.  д.) клавиатуры персонального компьютера. На рис. 3.1 приведена международная часть кодовых таблиц, основанная на стандарте ASCII. Ячейки таблиц пронумерованы соответственно в десятичной и шестнадцатеричной системе счисления.

а)

б)

Рис 3.1. Международная часть кодовой таблицы (стандарт ASCII) с номерами ячеек, представленных в десятичной (а) и шестнадцатеричной (б) системе счисления

Национальная часть кодовых таблиц содержит коды национальных алфавитов, которую называют также таблицей наборов символов (charset).

В настоящее время для поддержки букв русского алфавита (кириллицы) существует несколько кодовых таблиц (кодировок), которые используются различными операционными системами, что является существенным недостатком и в ряде случаев приводит к проблемам, связанным с операциями декодирования числовых значений символов. В табл. 3.1 приведены названия кодовых страниц (стандартов), на которых размещены кодовые таблицы (кодировки) кириллицы.

Таблица 3.1

Одним из первых стандартов кодирования кириллицы на компьютерах был стандарт КОИ8-Р. Национальная часть кодовой таблицы этого стандарта приведена на рис. 3.2.

Рис. 3.2. Национальная часть кодовой таблицы стандарта КОИ8-Р

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы (рис. 3.3, а).

а)

б)

Рис. 3.3. Национальная часть кодовой таблицы, размещенная на странице СР866 (а) и на странице СР1251 (б) стандарта кодирования текстовой информации

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft (рис. 3.2, б). Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).

В конце прошлого века появился новый международный стандарт Unicode, в котором один символ представляется двухбайтовым двоичным кодом. Применение этого стандарта – продолжение разработки универсального международного стандарта, позволяющего решить проблему совместимости национальных кодировок символов. С помощью данного стандарта можно закодировать 216 = 65536 различных символов. На рис. 3.4 приведена кодовая таблица 0400 (русский алфавит) стандарта Unicode.

Рис. 3.4. Кодовая таблица 0400 стандарта Unicode

Поясним сказанное, касающееся кодирования текстовой информации, на примере.

Пример 3.1

Закодировать слово «Компьютер» в виде последовательности десятичных и шестнадцатеричных чисел, используя кодировку СР1251. Какие символы будут отображены в кодовых таблицах СР866 и КОИ8-Р при использовании полученного кода.

Последовательности шестнадцатеричного и двоичного кода слова «Компьютер» на основе кодировочной таблицы СР1251 (см. рис. 3.3, б) будут выглядеть следующим образом:

Данная кодовая последовательность в кодировках СР866 и КОИ8-Р приведет к отображению следующих символов:

Для преобразования русскоязычных текстовых документов из одного стандарта кодирования текстовой информации в другой используются специальные программы – конверторы. Конверторы обычно встраиваются в другие программы. Примером может служить программа браузер – Internet Explorer (IE), которая имеет встроенный конвертор. Программа браузер – это специальная программа для просмотра содержимого Web-страниц в глобальной компьютерной сети Интернет. Воспользуемся этой программой для подтверждения полученного в примере 3.1 результата отображения символов. Для этого выполним следующие действия.

1. Запустим программу Блокнот (NotePad). Программа Блокнот в операционной системе Windows ХР запускается с помощью команды: [Кнопка Пуск – Программы – Стандартные – Блокнот]. В открывшемся окне программы Блокнот напечатаем слово «Компьютер» с использованием синтаксиса языка разметки гипертекстовых документов – HTML (Hyper Text Markup Language). Этот язык используется для создания документов в Интернете. Текст должен выглядеть следующим образом: <h2>Компыотер</h2>, где <h2> и </h2> теги (специальные конструкции) языка HTML для разметки заголовков. На рис. 3.5 представлен результат этих действий.

Рис. 3.5. Отображение текста в окне Блокнот

Сохраним этот текст, выполнив команду: [Файл – Сохранить как…] в соответствующей папке компьютера, при сохранении текста файлу присвоим имя – Прим, с расширением файла. html.

2. Запустим программу Internet Explorer, выполнив команду: [Кнопка Пуск – Программы – Internet Explorer]. При запуске программы появится окно, представленное на рис. 3.6

Рис. 3.6. Окно доступа в автономный режим

Выберем и активизируем кнопку Автономно при этом не произойдет подключение компьютера к глобальной сети Интернет. Появится основное окно программы Microsoft Internet Explorer, представленное на рис.  3.7.

Рис. 3.7. Основное окно Microsoft Internet Explorer

Выполним следующую команду: [Файл – Открыть], появится окно (рис. 3.8), в котором необходимо указать имя файла и нажать кнопку ОК или нажать кнопку Обзор… и найти файл Прим.html.

Рис. 3.8. Окно «Открыть»

Основное окно программы Internet Explorer примет вид, показанный на рис. 3.9. В окне отобразится слово «Компьютер». Далее, используя верхнее меню программы Internet Explorer, выполним следующую команду: [Вид – Кодировка – Кириллица (DOS)]. После выполнения этой команды в окне программы Internet Ехplorer отобразятся символы, показанные на рис. 3.10. При выполнении команды: [Вид – Кодировка – Кириллица (KOI8-R) ] в окне программы Internet Explorer отобразятся символы, показанные на рис. 3.11.

Рис. 3.9. Символы, отображаемые при кодировке СР1251

Рис. 3.10. Символы, отображаемые при включении кодировки СР866 для кодовой последовательности, представляемой в кодировке СР1251

Рис.  3.11. Символы, отображаемые при включении кодировки КОИ8-Р для кодовой последовательности, представляемой в кодировке СР1251

Таким образом, полученные с помощью программы Internet Explorer последовательности символов совпадают с последовательностями символов, полученных с помощью кодовых таблиц СР866 и КОИ8-Р в примере 3.1.

Данный текст является ознакомительным фрагментом.

Продолжение на ЛитРес

Кодирование текстовой информации

Чаще всего кодированию подвергаются тексты, написанные на естественных языках (русском, немецком и др.).

Основные способы кодирования текстовой информации

Существует несколько основных способов кодирования текстовой информации:

  1. графический, в котором текстовая информация кодируется путем использования специальных рисунков или знаков;
  2. символьный, в котором тексты кодируются с использованием символов того же алфавита, на котором написан исходник;
  3. числовой, в котором текстовая информация кодируется с помощью чисел.

Процесс чтения текста представляет собой процесс, обратный его написанию, в результате которого письменный текст преобразуется в устную речь. Чтение – это ничто иное, как декодирование письменного текста.

А сейчас обратите внимание на то, что существует много способов кодирования одного и того же текста на одном и том же языке.

Пример 1

Поскольку мы русские, то и текст привыкли записывать с помощью алфавита своего родного языка. Однако тот же самый текст можно записать, используя латинские буквы. Иногда это приходится делать, когда мы отправляем SMS по мобильному телефону, клавиатура которого не содержит русских букв, или же электронное письмо на русском языке за границу, если у адресата нет русифицированного программного обеспечения. Например, фразу «Здравствуй, дорогой Саша!» можно записать как: «Zdravstvui, dorogoi Sasha!».

Стенография

Определение 1

Стенография — это один из способов кодирования текстовой информации с помощью специальных знаков. Она представляет собой быстрый способ записи устной речи. Навыками стенографии могут владеть далеко не все, а лишь немногие специально обученные люди, которых называют стенографистами. Эти люди успевают записывать текст синхронно с речью выступающего человека, что, на наш взгляд, достаточно сложно. Однако для них это не проблема, поскольку в стенограмме целое слово или сочетание букв могут обозначаться одним знаком. Скорость стенографического письма превосходит скорость обычного в $4-7$ раз. Расшифровать (декодировать) стенограмму может только сам стенографист.

Пример 2

На рисунке представлен пример стенографии, в которой написано следущее: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»:

Рисунок 1.

Стенография позволяет не только вести синхронную запись устной речи, но и рационализировать технику письма.

Замечание 1

Приведёнными примерами мы проиллюстрировали важное правило: для кодирования одной и той же информации можно использовать разные способы, при этом их выбор будет зависеть от цели кодирования, условий и имеющихся средств.

Если нам нужно записать текст в темпе речи, сделаем это с помощью стенографии; если нужно передать текст за границу, воспользуемся латинским алфавитом; если необходимо представить текст в виде, понятном для грамотного русского человека, запишем его по всем правилам грамматики русского языка.

Также немаловажен выбор способа кодирования информации, который, в свою очередь, может быть связан с предполагаемым способом её обработки.

Пример 3

Рассмотрим пример представления чисел количественной информации. Используя буквы русского алфавита, можно записать число «тридцать пять». Используя же алфавит арабской десятичной системы счисления, запишем: $35$. Допустим нам необходимо произвести вычисления. Естественно, что для выполнения расчётов мы выберем удобную для нас запись числа арабскими цифрами, хотя можно примеры описывать и словами, но это будет довольно громоздко и не практично.

Замечание 2

Заметим, что приведенные выше записи одного и того же числа используют разные языки: первая — естественный русский язык, вторая — формальный язык математики, не имеющий национальной принадлежности. Переход от представления на естественном языке к представлению на формальном языке можно также рассматривать как кодирование.

Криптография

В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью.

Определение 2

Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается исходный текст. Шифрование — это тоже кодирование, но с засекреченным методом, известным только источнику и адресату. Методами шифрования занимается наука криптография.

Определение 3

Криптография — это наука о методах и принципах передачи и приема зашифрованной с помощью специальных ключей информации. Ключ — секретная информация, используемая криптографическим алгоритмом при шифровании/расшифровке сообщений.

Числовое кодирование текстовой информации

В каждом национальном языке имеется свой алфавит, который состоит из определенного набора букв, следующих друг за другом, а значит и имеющих свой порядковый номер.

Каждой букве сопоставляется целое положительное число, которое называют кодом символа. Именно этот код и будет хранить память компьютера, а при выводе на экран или бумагу преобразовывать в соответствующий ему символ. Помимо кодов самих символов в памяти компьютера хранится и информация о том, какие именно данные закодированы в конкретной области памяти. Это необходимо для различия представленной информации в памяти компьютера (числа и символы).

Используя соответствия букв алфавита с их числовыми кодами, можно сформировать специальные таблицы кодирования. Иначе можно сказать, что символы конкретного алфавита имеют свои числовые коды в соответствии с определенной таблицей кодирования.

Однако, как известно, алфавитов в мире большое множество (английский, русский, китайский и др.). Соответственно возникает вопрос, каким образом можно закодировать все используемые на компьютере алфавиты.

Чтобы ответить на данный вопрос, нам придется заглянуть назад в прошлое.

В $60$-х годах прошлого века в американском национальном институте стандартизации (ANSI) была разработана специальная таблица кодирования символов, которая затем стала использоваться во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange, что означает в переводе с английского «американский стандартный код для обмена информацией»).

В данной таблице представлен $7$-битный стандарт кодирования, при использовании которого компьютер может записать каждый символ в одну $7$-битную ячейку запоминающего устройства. При этом известно, что в ячейке, состоящей из $7$ битов, можно сохранять $128$ различных состояний. В стандарте ASCII каждому из этих $128$ состояний соответствует какая-то буква, знак препинания или же специальный символ.

В процессе развития вычислительной техники стало ясно, что $7$-битный стандарт кодирования достаточно мал, поскольку в $128$ состояниях $7$-битной ячейки нельзя закодировать буквы всех письменностей, имеющихся в мире.

Чтобы решить эту проблему, разработчики программного обеспечения начали создавать собственные 8-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Во избежание путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ — реализуют региональные языковые особенности.

Замечание 3

Как мы знаем национальных алфавитов огромное количество, поэтому и расширенные таблицы ASCII-кодов представлены множеством вариантов. Так для русского языка существует также несколько вариантов, наиболее распространенные Windows-$1251$ и Koi8-r. Большое количество вариантов кодировочных таблиц создает определенные трудности. К примеру, мы отправляем письмо, представленное в одной кодировке, а получатель при этом пытается прочесть его в другой. В результате на экране у него появляется непонятная абракадабра, что говорит о том, что получателю для прочтения письма требуется применить иную кодировочную таблицу.

Существует и другая проблема, которая заключается в том, что алфавиты некоторых языков содержат слишком много символов, которые не позволяют помещаться им в отведенные позиции с $128$ до $255$ однобайтовой кодировки.

Следующая проблема возникает тогда, когда в тексте используют несколько языков (например, русский, английский и немецкий). Нельзя же использовать обе таблицы сразу.

Для решения этих проблем в начале $90$-х годов прошлого столетия был разработан новый стандарт кодирования символов, который назвали Unicode. С помощью этого стандарта стало возможным использование в одном тексте любых языков и символов.

Данный стандарт для кодирования символов предоставляет $31$ бит, что составляет $4$ байта за минусом $1$ бита. Количество возможных комбинаций при использовании данной кодировочной таблицы очень велико: $231 = 2 \ 147 \ 483 \ 684$ (т.е. более $2$ млрд.). Это возможно стало в связи с тем, что Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и другие специальные символы. И все-таки информационная емкость $31$-битового Unicode слишком велика, И как следствие, наиболее часто используют именно сокращенную $16$-битовую версию ($216 = 65 \ 536$ значений), в которой представлены все современные алфавиты. В Unicode первые $128$ кодов совпадают с таблицей ASCII.

Введение в кодирование текста | Центр цифровых гуманитарных исследований

Кодирование текста — это процесс, при котором документы переводятся в формат с возможностью электронного поиска для научных исследований.

CDRH подготавливает материал для электронного доступа путем кодирования текста. Речь идет о четырех основных шагах:

  1. передача выбранных материалов в компьютерный текстовый редактор
  2. кодирование или разметка документа с помощью тегов и элементов разметки
  3. подтверждение или проверка правильности документа
  4. представление документа пользователю через Интернет или другой интерфейс
Примеры проектов кодирования текста включают:

Архив Уолта Уитмена

Что такое тег?

После передачи материала в компьютерный текстовый редактор текст кодируется путем размещения тегов вокруг частей текста.Эти теги определяют характеристики материала и определяют, как он будет отображаться и работать в Интернете. Теги могут указывать, где расположен заголовок, что отрывок выделен курсивом, что слово написано с ошибкой, где размещена таблица или изображение, где расположены ссылки и т. Д.

Есть три типа тегов:

  1. открытие или начало тегов:</li><li> закрывающие, или завершающие, теги:
  2. пустых тегов:

Что такое элемент?

Элемент — это часть текста, связанная парой открывающих и закрывающих тегов.Теги идентифицируют элемент и отделяют разные элементы друг от друга. Следующие примеры взяты из Электронного текстового центра:

Пример:

Листья травы

Элементы также могут появляться внутри элементов. Это называется вложением.

Пример:

Leaves of Grass <subtitle> текстовый вариант печатных стихотворений </subtitle>

Если элементы не вложены должным образом, текст не будет правильно работать в Интернете.

Что такое атрибут?

Атрибут изменяет или дополнительно описывает элемент и появляется только в начальном теге.

Пример:

rend = «italic» </strong>> Листья травы

Атрибут rend = «italic» означает, что заголовок должен быть выделен курсивом: Leaves of Grass

Шаг 1. Кодирование памяти | Безграничная психология

Введение в кодирование памяти

Кодирование памяти позволяет преобразовать интересующий элемент в конструкцию, которая хранится в мозгу, которую впоследствии можно будет вызвать.

Цели обучения

Приведите примеры оптимизации различных процессов кодирования и консолидации памяти

Основные выводы

Ключевые моменты
  • Кодирование памяти позволяет преобразовывать информацию в конструкцию, которая хранится в мозгу на неопределенный срок; после кодирования его можно вызвать из кратковременной или долговременной памяти.
  • Четыре основных типа кодирования — это визуальный, акустический, детальный и семантический.
  • Кодирование воспоминаний в мозгу можно оптимизировать различными способами, включая мнемонику, разбиение на части и обучение в зависимости от состояния.
  • Исследования показывают, что сон имеет первостепенное значение для мозга при кодировании информации в доступные воспоминания; предполагается, что во время сна наша рабочая память кодируется в долговременную память.
Ключевые термины
  • семантика : Отражение намеченной структуры и значения.
  • эхо : имитация звука; звукоподражательный.
  • мнемоника : что-нибудь (особенно что-то в устной форме), используемое для помощи в запоминании.

Кодирование памяти позволяет преобразовывать информацию в конструкцию, которая хранится в мозгу на неопределенный срок. После кодирования его можно вызвать из кратковременной или долговременной памяти. На самом базовом уровне кодирование в памяти похоже на нажатие кнопки «Сохранить» в компьютерном файле. После сохранения файла его можно восстановить, если жесткий диск не поврежден. «Вызов» относится к извлечению ранее закодированной информации.

Процесс кодирования начинается с восприятия, которое представляет собой идентификацию, организацию и интерпретацию любой сенсорной информации с целью ее понимания в контексте конкретной среды. Стимулы воспринимаются органами чувств, а соответствующие сигналы поступают в таламус человеческого мозга, где они синтезируются в единый опыт. Затем гиппокамп анализирует этот опыт и решает, стоит ли сохранять долговременную память.

Кодирование достигается с помощью химических веществ и электрических импульсов в мозгу.Нейронные пути или связи между нейронами (клетками мозга) на самом деле формируются или укрепляются посредством процесса, называемого долгосрочным потенцированием, который изменяет поток информации внутри мозга. Другими словами, когда человек переживает новые события или ощущения, мозг «перестраивает» себя, чтобы сохранить этот новый опыт в памяти.

Типы кодирования

Четыре основных типа кодирования — это визуальный, акустический, детальный и семантический.

Визуальный

Визуальное кодирование — это процесс кодирования изображений и визуальной сенсорной информации.Создание мысленных картинок — это один из способов использования визуального кодирования. Этот тип информации временно сохраняется в графической памяти, а затем перемещается в долговременную память для хранения. Миндалевидное тело играет большую роль в визуальном кодировании воспоминаний.

Акустический

Акустическое кодирование — это использование слуховых стимулов или слуха для имплантации воспоминаний. Этому способствует так называемая фонологическая петля. Фонологическая петля — это процесс, при котором звуки суб-вокально репетируются (или «повторяются в уме снова и снова»), чтобы их можно было запомнить.

Разрабатывающее

Детальное кодирование использует информацию, которая уже известна, и связывает ее с новой, полученной информацией. Природа новой памяти становится зависимой как от предыдущей информации, так и от новой. Исследования показали, что долгосрочное хранение информации значительно улучшается за счет использования подробного кодирования.

Семантика

Семантическое кодирование включает использование сенсорного ввода, который имеет определенное значение или может применяться к контексту.Разделение на части и мнемоника (обсуждаемые ниже) помогают в семантическом кодировании; иногда происходит глубокая обработка и оптимальное извлечение. Например, вы можете запомнить конкретный номер телефона по имени человека или конкретную еду по ее цвету.

Оптимизация кодирования через организацию

Не вся информация кодируется одинаково хорошо. Подумайте еще раз о нажатии «Сохранить» на компьютерном файле. Вы сохранили его в нужную папку? Был ли файл готовым, когда вы его сохранили? Сможете ли вы найти его позже? На базовом уровне процесс кодирования сталкивается с аналогичными проблемами: если информация неправильно закодирована, вспомнить позже будет сложнее.Процесс кодирования воспоминаний в мозгу можно оптимизировать множеством способов, включая мнемонику, разбиение на части и обучение в зависимости от состояния.

Мнемоника

Мнемоника, которую иногда называют просто мнемоникой, — это один из способов помочь закодировать простой материал в памяти. Мнемоника — это любой метод организации, который можно использовать, чтобы что-то запомнить. Одним из примеров является система со словом , в которой человек «привязывает» или связывает запоминаемые предметы с другими легко запоминающимися предметами.Примером этого является «Король Филипп пришел за хорошим супом», предложение с привязкой к слову для запоминания порядка таксономических категорий в биологии, в котором используются те же начальные буквы, что и слова, которые нужно запомнить: королевство, тип, класс, порядок , семейство, род, вид. Другой тип мнемоники — это аббревиатура , , в которой человек сокращает список слов до их начальных букв, чтобы уменьшить нагрузку на память.

Разделение на части

Разделение на части — это процесс организации частей объектов в значимые целые.Тогда запоминается целое как единое целое, а не отдельные части. Примеры разбиения на части включают запоминание телефонных номеров (серия отдельных чисел, разделенных тире) или слов (серия отдельных букв).

Государственное обучение

Зависимое от состояния обучение — это когда человек запоминает информацию, основанную на состоянии ума (или настроении), в котором он находится, когда изучает ее. Сигналы поиска — большая часть обучения, зависящего от состояния. Например, если человек слушал определенную песню, изучая определенные концепции, воспроизведение этой песни, вероятно, усилит усвоенные концепции.Запахи, звуки или место обучения также могут быть частью обучения, зависящего от состояния.

Консолидация памяти

Консолидация памяти — это категория процессов, которые стабилизируют трассировку памяти после ее первоначального сбора. Как и кодирование, консолидация влияет на то, будет ли память события доступна постфактум. Однако на кодирование больше влияет внимание и сознательные усилия по запоминанию вещей, в то время как процессы, участвующие в консолидации, как правило, неосознаваемы и происходят на клеточном или неврологическом уровне.Как правило, фокусируется кодирование, в то время как консолидация — это скорее биологический процесс. Консолидация происходит даже во время сна.

Спящий режим и память

Исследования показывают, что сон имеет первостепенное значение для мозга, чтобы объединить информацию в доступные воспоминания. Пока мы спим, мозг анализирует, классифицирует и отбрасывает недавние воспоминания. Один из полезных методов улучшения памяти — использовать аудиозапись информации, которую вы хотите запомнить, и воспроизводить ее, пока вы пытаетесь заснуть.Когда вы действительно находитесь в первой стадии сна, обучение не происходит, потому что во время сна трудно консолидировать воспоминания (что является одной из причин, по которой мы склонны забывать большую часть наших снов). Однако то, что вы слышите на записи непосредственно перед сном, с большей вероятностью сохранится из-за вашего расслабленного и сосредоточенного состояния ума.

Роль внимания в памяти

Чтобы закодировать информацию в памяти, мы должны сначала обратить внимание, процесс, известный как захват внимания.

Цели обучения

Обсудите связь между захватом внимания и рабочей памятью

Основные выводы

Ключевые моменты
  • Исследования показывают тесную связь между рабочей памятью и так называемым захватом внимания, процессом, в котором человек обращает внимание на конкретную информацию.
  • Захват внимания может происходить явно или неявно.
  • Явный захват внимания — это когда стимул, на который человек не обращал внимания, становится настолько заметным, что человек начинает обращать на него внимание и осознает его существование.
  • Неявный захват внимания — это когда стимул, на который человек не обращал внимания, оказывает влияние на его поведение, независимо от того, осознают ли они это воздействие или стимул.
  • Рабочая память активно хранит много информации и манипулирует ими.
Ключевые термины
  • неявно : подразумевается косвенно, без прямого выражения.
  • явный : очень конкретный, ясный или подробный.
  • рабочая память : система, которая активно хранит в уме несколько фрагментов информации для выполнения вербальных и невербальных задач и делает их доступными для дальнейшей обработки информации.

Захват внимания

Для того, чтобы информация была закодирована в памяти, мы должны сначала обратить на нее внимание. Когда человек обращает внимание на определенную информацию, этот процесс называется захватом внимания. Обращая внимание на конкретную информацию (а не на другую информацию), человек создает воспоминания, которые могут (и, вероятно, отличаются) от кого-то другого в той же ситуации.Вот почему два человека могут видеть одну и ту же ситуацию, но создавать о ней разные воспоминания — каждый человек по-своему захватывает внимание. Есть два основных типа захвата внимания: явный и неявный.

Явный захват внимания

Явный захват внимания — это когда стимул, на который человек не обращал внимания, становится настолько заметным, что человек начинает обращать на него внимание и осознает его существование. Проще говоря, это когда что-то новое привлекает ваше внимание, и вы начинаете осознавать этот новый стимул и сосредотачиваться на нем.Вот что происходит, когда вы работаете над своим домашним заданием, и кто-то называет ваше имя, привлекая ваше полное внимание.

Неявный захват внимания

Неявный захват внимания — это когда стимул, на который человек не обращал внимания, оказывает влияние на его поведение, независимо от того, осознают ли они это воздействие или стимул. Если вы работаете над своим домашним заданием, и в фоновом режиме звучит тихая, но раздражающая музыка, вы можете не осознавать этого, но это может повлиять на ваше общее внимание и выполнение домашнего задания.Неявный захват внимания важен для понимания во время вождения, потому что, хотя вы можете не осознавать влияние стимула, такого как громкая музыка или некомфортная температура, на ваше вождение, тем не менее, это повлияет на вашу производительность.

Неявный захват внимания : Даже когда вы сосредоточены на вождении, ваше внимание может неявно захватывать другую информацию, например движение на экране GPS, которая может повлиять на вашу производительность.

Рабочая память и захват внимания

Рабочая память — это часть памяти, которая в течение короткого времени активно удерживает множество фрагментов информации и манипулирует ими.В рабочей памяти есть подсистемы, которые манипулируют визуальной и вербальной информацией, и ее емкость ограничена. Каждую секунду мы получаем тысячи единиц информации; это хранится в нашей рабочей памяти. Рабочая память решает (на основе прошлого опыта, текущих мыслей или информации в долговременной памяти), является ли какая-либо конкретная информация важной или актуальной. Другими словами, если информация не используется или не считается важной, она будет забыта. В противном случае он переносится из кратковременной памяти и передается в долговременную память.

Одним из известных примеров захвата внимания является эффект коктейльной вечеринки, который представляет собой феномен способности сосредоточить слуховое внимание на определенном стимуле, отфильтровывая ряд других стимулов, почти так же, как завсегдатай вечеринки может сосредоточиться на отдельном стимуле. разговор в шумной комнате. Этот эффект позволяет большинству людей настроиться на один голос и отключиться от всех остальных.

Исследования показывают тесную связь между рабочей памятью и захватом внимания, или процессом внимания к определенной информации.Человек обращает внимание на данный стимул либо сознательно (явно, с осознанием), либо бессознательно. Затем этот стимул кодируется в рабочую память, и в этот момент памятью манипулируют, чтобы связать ее с другим знакомым понятием или с другим стимулом в текущей ситуации. Если информация будет сочтена достаточно важной, чтобы хранить ее бесконечно долго, опыт будет закодирован в долговременной памяти. В противном случае он будет забыт вместе с другой неважной информацией. Существует несколько теорий, объясняющих, как определенная информация выбирается для кодирования, а другая информация отбрасывается.

Модель фильтра

Ранее принятая модель фильтра предполагает, что фильтрация информации от сенсорной к рабочей памяти основана на определенных физических свойствах стимулов. Для каждой частоты существует отдельный нервный путь; наше внимание выбирает, какой путь активен, и тем самым может контролировать, какая информация передается в рабочую память. Таким образом, можно следить за словами одного человека с определенной частотой голоса, даже если вокруг много других звуков.

Теория затухания

Модель фильтра не полностью соответствует требованиям. Теория ослабления, пересмотренная модель фильтра, предлагает ослабить (то есть уменьшить) информацию, которая менее важна, но не отфильтровать ее полностью. Согласно этой теории, информацию с игнорируемыми частотами все же можно анализировать, но не так эффективно, как информацию с соответствующими частотами.

Теория позднего выбора

Теория ослабления отличается от теории позднего отбора, которая предполагает, что вся информация сначала анализируется, а затем считается важной или неважной; однако эта теория менее подтверждена исследованиями.

Уровни обработки

Теория

уровней обработки рассматривает не только , как человек получает информацию, но также и то, что они делают с этой информацией, .

Цели обучения

Различия между разными уровнями обработки

Основные выводы

Ключевые моменты
  • Существует три уровня обработки вербальных данных: структурный, фонетический и семантический.
  • Структурная обработка исследует структуру слова; фонетическая обработка исследует, как звучит слово; а семантическая обработка исследует значение слова.
  • Когда слово проходит через уровни обработки, мы связываем его с другими знаниями, которые у нас могут быть. Это определяет, переместится ли слово из кратковременной памяти в долговременную.
Ключевые термины
  • семантика : Отражает заданную структуру и значение.
  • фонетический : Относится к звукам разговорной речи.
  • структура : Общая форма или организация чего-либо.
Теория

уровней обработки рассматривает не только , как человек получает информацию, но и то, что человек делает с информацией после ее получения, и как это влияет на общее удержание.Фергус Крейк и Роберт Локхарт определили, что память не имеет фиксированных хранилищ пространства; скорее, есть несколько различных способов, которыми человек может кодировать и сохранять данные в своей памяти. По общему мнению, информацию легче передать в долговременную память, если она может быть связана с другими воспоминаниями или информацией, с которой человек знаком.

Существует три уровня обработки вербальных данных: структурный, фонетический и семантический. Эти уровни развиваются от самого поверхностного (структурного) до самого глубокого (семантического).Каждый уровень позволяет человеку осмыслить информацию и связать ее с прошлыми воспоминаниями, определяя, должна ли информация переноситься из кратковременной памяти в долговременную. Чем глубже обработка информации, тем легче ее найти позже.

Обработка конструкций

Структурная обработка исследует структуру слова — например, шрифт набранного слова или буквы в нем. Это то, как мы оцениваем внешний вид слов, чтобы понять их и придать какое-то простое значение.

Письма : Обработка внешнего вида слова называется структурной обработкой.

Структурная обработка — это самый поверхностный уровень обработки: если вы видите вывеску ресторана, но участвуете только в структурной обработке, вы можете вспомнить, что вывеска была фиолетовой с курсивом, но на самом деле не помните название ресторана.

Фонетическая обработка

Фонетическая обработка — это то, как мы слышим слово — звуки, которые оно издает, когда буквы читаются вместе.Мы сравниваем звучание слова с другими словами, которые мы слышали, чтобы сохранить некоторый уровень значения в нашей памяти. Фонетическая обработка глубже структурной обработки; то есть мы с большей вероятностью запомним вербальную информацию, если обработаем ее фонетически.

Вернемся к примеру с попыткой запомнить название ресторана: если название ресторана не имеет для вас смыслового значения (например, если это слово на другом языке, например «Вермишель»), вы все равно можете в состоянии запомнить имя, если вы обработали его фонетически и думаете: «Все началось со звука V и рифмовалось с живот .”

Семантическая обработка

Семантическая обработка — это когда мы применяем значение к словам и сравниваем или соотносим его со словами с аналогичным значением. Этот более глубокий уровень обработки включает детальную репетицию, которая является более значимым способом анализа информации. Это увеличивает вероятность того, что информация будет храниться в долговременной памяти, поскольку она связана с ранее изученными концепциями.

Метод локусов

Одним из примеров использования преимуществ более глубокой семантической обработки для улучшения удержания является использование метода локусов.Это когда вы ассоциируете невизуальный материал с чем-то, что можно визуализировать. Создавая дополнительные связи между одним воспоминанием и другим, более знакомое воспоминание работает как сигнал для усвоения новой информации.

Представьте, что вы идете по знакомому месту, например по своей квартире. Когда вы заходите на знакомые сайты, представьте, что вы видите то, что вам нужно запомнить. Предположим, вам нужно вспомнить первых четырех президентов Соединенных Штатов: Вашингтон, Адамс, Джефферсон и Мэдисон.В вашей квартире также четыре комнаты: гостиная, кухня, ванная и спальня. Свяжите первого президента, Вашингтона, с первой комнатой (гостиной). Представьте, что он стоит на вашем диване, как если бы это была лодка, на которой он пересек реку Делавэр. Теперь вторая комната — это кухня, и вы представляете там Джона Адамса. Подумайте, как он подошел к холодильнику, открыл, достал пиво и заметил, что его сварил его брат Самуил. И так для остальных президентов…

Определение кодировки

Кодирование — это процесс преобразования данных из одной формы в другую.Хотя «кодирование» может использоваться как глагол, оно часто используется как существительное и относится к определенному типу закодированных данных. Существует несколько типов кодирования, включая кодирование изображений, кодирование аудио и видео, а также кодирование символов.

Медиа-файлы часто кодируются для экономии места на диске. Кодируя цифровые аудио-, видео- и графические файлы, их можно сохранять в более эффективном сжатом формате. Закодированные файлы мультимедиа обычно аналогичны по качеству исходным несжатым файлам, но имеют гораздо меньшие размеры.Например, аудиофайл WAVE (.WAV), преобразованный в файл MP3 (.MP3), может быть 1/10 размера исходного файла WAVE. Точно так же сжатый видеофайл MPEG (.MPG) может потребовать только часть дискового пространства, как исходный файл цифрового видео (.DV).

Кодировка символов — это еще один тип кодирования, при котором символы кодируются как байты. Поскольку компьютеры распознают только двоичные данные, текст должен быть представлен в двоичной форме. Это достигается путем преобразования каждого символа (который включает буквы, числа, символы и пробелы) в двоичный код.Общие типы кодировки текста включают ASCII и Unicode.

Всякий раз, когда данные кодируются, они могут быть прочитаны только программой, которая поддерживает правильный тип кодирования. Для аудио- и видеофайлов это часто достигается с помощью кодека, который декодирует данные в реальном времени. Большинство текстовых редакторов поддерживают несколько типов кодировки текста, поэтому редко можно найти текстовый файл, который не открывается в стандартном текстовом редакторе. Однако, если текстовый редактор не поддерживает кодировку, используемую в текстовом документе, некоторые или все символы могут отображаться как странные символы, а не как предполагаемый текст.

Обновлено: 23 сентября 2010 г.

TechTerms — Компьютерный словарь технических терминов

Эта страница содержит техническое определение кодирования. Он объясняет в компьютерной терминологии, что означает кодирование, и является одним из многих программных терминов в словаре TechTerms.

Все определения на веб-сайте TechTerms составлены так, чтобы быть технически точными, но также простыми для понимания. Если вы найдете это определение кодировки полезным, вы можете ссылаться на него, используя ссылки для цитирования выше.Если вы считаете, что термин следует обновить или добавить в словарь TechTerms, отправьте электронное письмо в TechTerms!

Подпишитесь на рассылку TechTerms, чтобы получать избранные термины и тесты прямо в свой почтовый ящик. Вы можете получать электронную почту ежедневно или еженедельно.

Подписаться

Text Encoding: Обзор. Авторы: Розария Силипо и Катрин… | Автор: Розария Силипо

Авторы: Розария Силипо и Катрин Мельчер

Ключом к выполнению любой операции интеллектуального анализа текста, такой как определение темы или анализ тональности, является преобразование слов в числа, последовательности слов в последовательности чисел.Когда у нас есть числа, мы снова возвращаемся в хорошо известную игру анализа данных, где алгоритмы машинного обучения могут помочь нам с классификацией и кластеризацией.

Здесь мы сосредоточимся именно на той части анализа, которая преобразует слова в числа и текст в числовые векторы: кодирование текста.

Для кодирования текста доступно несколько методов, каждый из которых имеет свои плюсы и минусы, и каждый из них лучше всего подходит для конкретной задачи. В простейших методах кодирования не сохраняется порядок слов, в то время как в других сохраняется.Некоторые методы кодирования бывают быстрыми и интуитивно понятными, но размер результирующих векторов документа быстро растет вместе с размером словаря. Другие методы кодирования оптимизируют размерность вектора, но теряют интерпретируемость. Давайте проверим наиболее часто используемые методы кодирования.

1. Быстрая или частотная векторизация документа (не заказывается)

Одним из наиболее часто используемых методов кодирования текста является векторизация документа. Здесь словарь строится из всех слов, доступных в коллекции документов, и каждое слово становится столбцом в векторном пространстве.Затем каждый текст становится вектором из нулей и единиц. 1 кодирует наличие слова, а 0 — его отсутствие. Такое числовое представление документа называется быстрой векторизацией документа.

Вариант этой быстрой векторизации использует частоту каждого слова в документе, а не только его наличие / отсутствие. Этот вариант называется векторизацией на основе частоты.

Хотя эту кодировку легко интерпретировать и создавать, она имеет два основных недостатка. Он не сохраняет порядок слов в тексте, и размерность конечного векторного пространства быстро растет вместе со словарем словаря.

Порядок слов в тексте важен, например, для учета отрицаний или грамматических структур. С другой стороны, некоторые более примитивные техники НЛП и алгоритмы машинного обучения могут в любом случае не использовать порядок слов.

Кроме того, быстро растущий размер векторного пространства может стать проблемой только для больших словарей. И даже в этом случае количество слов можно ограничить до максимума, например, путем очистки и / или извлечения ключевых слов из текстов документов.

2. Быстрое кодирование (заказанное)

Некоторые алгоритмы машинного обучения могут создавать внутреннее представление элементов в последовательности, например упорядоченных слов в предложении. Например, рекуррентные нейронные сети (RNN) и уровни LSTM могут использовать порядок следования для лучших результатов классификации.

В этом случае нам нужно перейти от быстрой векторизации документа к горячей кодировке, где порядок слов сохраняется. Здесь текст документа снова представлен вектором наличия / отсутствия слов, но слова вводятся в модель последовательно.

При использовании метода горячего кодирования каждый документ представляется тензором. Каждый тензор документа состоит из, возможно, очень длинной последовательности векторов 0/1, что приводит к очень большому и очень разреженному представлению корпуса документа.

3. Индексное кодирование

Другой кодировкой, сохраняющей порядок слов в предложениях, является индексное кодирование. Идея кодирования на основе индекса состоит в том, чтобы сопоставить каждое слово с одним индексом, т.е.е., ряд.

Первым шагом является создание словаря, который отображает слова в индексы. На основе этого словаря каждый документ представлен последовательностью индексов (чисел), каждый номер кодирует одно слово. Основным недостатком кодирования на основе индекса является то, что оно вводит числовое расстояние между текстами, которого на самом деле не существует.

Обратите внимание, что кодирование на основе индекса позволяет документировать векторы разной длины. Фактически, последовательности индексов имеют переменную длину, в то время как векторы документов имеют фиксированную длину.

4. Встраивание слов

Последний метод кодирования, который мы хотим изучить, — встраивание слов. Встраивание слов — это семейство методов обработки естественного языка, нацеленных на отображение семантического значения в геометрическое пространство.1 Это достигается путем привязки числового вектора к каждому слову в словаре, так что расстояние между любыми двумя векторами захватывает часть семантики. отношения между двумя связанными словами. Геометрическое пространство, образованное этими векторами, называется пространством вложения.Самыми известными методами встраивания слов являются Word2Vec и GloVe.

На практике мы проецируем каждое слово в непрерывное векторное пространство, создаваемое выделенным слоем нейронной сети. Слой нейронной сети учится связывать векторное представление каждого слова, которое полезно для его общей задачи, например, для предсказания окружающих слов.2

Вспомогательные методы предварительной обработки

Многие алгоритмы машинного обучения требуют фиксированной длины входные векторы.Обычно максимальная длина последовательности определяется как максимальное количество слов, разрешенное в документе. Более короткие документы дополняются нулями. Более длинные документы усекаются. Таким образом, заполнение нулями и усечение являются двумя полезными вспомогательными этапами подготовки к анализу текста.

Заполнение нулями означает добавление столько нулей, сколько необходимо для достижения максимально допустимого количества слов.

Усечение означает отсечение всех слов после того, как будет достигнуто максимальное количество слов.

Сводка

Мы исследовали четыре наиболее часто используемых метода кодирования текста:

  • Векторизация документа
  • Горячее кодирование
  • Индексное кодирование
  • Встраивание слов

Векторизация документа — единственный метод, не сохраняющий порядок слов во входном тексте.Однако его легко интерпретировать и легко генерировать.

One-Hot кодирование — это компромисс между сохранением порядка слов в последовательности и поддержанием легкой интерпретируемости результата. Цена, которую нужно заплатить, — это очень редкий и очень большой входной тензор.

Кодирование на основе индексов пытается решить проблему как уменьшения размера входных данных, так и сохранения порядка последовательности, отображая каждое слово в целочисленный индекс и группируя последовательность индекса в столбец типа коллекции.

Наконец, встраивание слов проецирует кодирование на основе индекса или горячее кодирование в числовой вектор в новом пространстве с меньшей размерностью.Новое пространство определяется числовым выводом слоя внедрения в нейронной сети глубокого обучения. Дополнительное преимущество этого подхода состоит в точном сопоставлении слов с аналогичной ролью. Минус, конечно, более высокая степень сложности.

Мы надеемся, что предоставили достаточно общее и полное описание доступных в настоящее время методов кодирования текста, чтобы вы могли выбрать тот, который лучше всего подходит для вашей задачи анализа текста.

Ссылки

1 Шолле, Франсуа «Использование предварительно обученных встраиваний слов в модели Кераса», блог Keras, 2016 г.

2 Браунли, Джейсон «Как использовать слои встраивания слов для глубокого обучения с помощью Keras», Machine Learning Mystery, 2017 г.

Впервые опубликовано в Data Science Central.

Кодирование 101 — Часть 1: Что такое кодирование? Блог Bizbrains

Итак, вы можете подумать, что текст — это просто текст. Ну подумай еще раз. В этой серии сообщений в блоге мы перейдем к байтовому уровню, изучим, как текст на самом деле представлен компьютерами, и обсудим, как это влияет на ваши интеграционные решения.

Что такое кодировка?

Кодирование — это способ, которым компьютер сохраняет текст как необработанные двоичные данные. Чтобы правильно читать текстовые данные, вы должны знать, какая кодировка использовалась для их хранения, а затем использовать ту же кодировку для интерпретации двоичных данных, чтобы получить исходный текст.Теперь вы, вероятно, думаете: «Звучит не так уж плохо, конечно, есть всего пара разных кодировок, и наверняка все текстовые данные содержат информацию о том, какая кодировка используется, не так ли?» Что ж, ответы на эти вопросы, к сожалению, не так просты, поэтому кодирование может быть таким кошмаром для разработчиков.

Что такое текст?

Фактический текст зависит от контекста. Когда текст хранится или куда-то передается, это просто часть двоичных данных, таких же, как и любые другие данные.На самом базовом уровне это длинный ряд нулей и единиц. Когда он активно обрабатывается компьютером, это все еще двоичные данные, но они интерпретируются системой как отдельные символы и во многих случаях преобразуются в другое двоичное представление во время обработки. Это представление называется Unicode.

Краткое введение в Unicode

Еще в 1988 году цифровая обработка данных становилась все более и более распространенной, но рынок все еще был крайне фрагментирован, и каждый поставщик использовал свои собственные нестандартные решения для большинства задач.В результате взаимная совместимость между различными компьютерными системами практически отсутствовала, и отправка данных из одной системы в другую часто была очень сложной. В это время была предпринята попытка остановить поток возникающих проблем с кодировкой путем введения стандартного общего набора символов, известного как Unicode. Таким образом, все различные используемые кодировки можно было, по крайней мере, сопоставить с общим набором символов, поэтому не было бы никаких сомнений относительно того, какой символ должен представлять данный код.


Из статьи Википедии для Unicode:

«Unicode — это отраслевой стандарт вычислительной техники для согласованного кодирования, представления и обработки текста, выраженного в большинстве мировых систем письма. Стандарт поддерживается Консорциумом Unicode, и по состоянию на май 2019 года самая последняя версия Unicode 12.1 содержит набор из 137 994 символа, охватывающий 150 современных и исторических сценариев, а также несколько наборов символов и эмодзи.

При обработке текста Unicode обеспечивает уникальную кодовую точку — число, а не глиф — для каждого символа.Другими словами, Unicode представляет символ абстрактным образом и оставляет визуальную визуализацию (размер, форму, шрифт или стиль) другому программному обеспечению, например веб-браузеру или текстовому процессору ».


Набор символов Unicode сам по себе не является кодировкой, а представляет собой просто стандартизованный набор всех символов, с которыми кто-либо может встретиться в файле данных. Стандарт Unicode также содержит ряд актуальных кодировок. Общим для всех этих форм, в отличие от большинства других форм кодирования текста, является то, что они поддерживают весь набор символов Unicode.

XKCD # 1953 — История Unicode

Хотя Unicode действительно устранил некоторые проблемы, связанные с избытком сосуществующих кодировок символов, он не решил все из них. Во-первых, внедрение сопутствующих систем кодирования было медленным и все еще далеко не универсальным. С другой стороны, даже при том, что наличие общего набора символов для сопоставления кодировок, безусловно, было полезным, это не изменило тот печальный факт, что многие типы текстовых данных не содержат никакой информации о том, какая система кодирования использовалась для их создания.

Итак, как работает кодирование?

Хорошо, давайте перейдем к мельчайшим деталям. Что на самом деле сохраняется при сохранении текстового файла? Сначала мы рассмотрим одну из самых старых и простых кодировок — ASCII. Вот выдержка из статьи Википедии для ASCII:

«Первоначально основанный на английском алфавите, ASCII кодирует 128 заданных символов в семибитовые целые числа, как показано в таблице ASCII выше. Можно напечатать девяносто пять закодированных символов: это цифры от 0 до 9, строчные буквы от a до z, прописные буквы от A до Z и символы пунктуации.Кроме того, исходная спецификация ASCII включала 33 непечатаемых управляющих кода, которые были созданы с помощью телетайпов; большинство из них уже устарели, хотя некоторые из них все еще широко используются, например, коды возврата каретки, перевода строки и табуляции ».

Поскольку ASCII был разработан в США и основан на английском алфавите, он содержит только стандартные английские символы. Это означает, что текст, содержащий неанглийские символы (например, буквы с диакритическими знаками или специальные буквы, используемые в других языках), не может быть точно закодирован в ASCII без замены специальных символов на стандартные английские.ASCII был разработан с использованием 7-битных кодов для представления закодированных символов, но поскольку все современные компьютеры используют байты (8 бит) в качестве наименьшей единицы памяти, символы ASCII теперь хранятся с использованием 8 бит на символ. Первый бит просто не используется.

Весь стандарт кодирования ASCII выглядит так:

Теперь давайте рассмотрим пример, чтобы увидеть, как эти тексты будут закодированы в стандарте ASCII. Вместо того, чтобы полностью писать двоичные представления более длинных текстов, мы будем использовать шестнадцатеричную нотацию для двоичных данных.

Когда вы открываете текстовый файл в кодировке ASCII в текстовом редакторе, программа считывает каждый байт файла и ищет значение в таблице ASCII, чтобы определить, какой символ отображать для этого байта.

Однако

ASCII — это очень ограниченная кодировка. Он содержит только 95 печатных символов и поэтому может использоваться только для кодирования этих символов. Если у вас есть текстовые данные, которые содержат больше символов, чем эти 95 печатных символов, вам придется использовать другую кодировку.

Это основы работы кодирования. В следующей части серии мы рассмотрим несколько различных кодировок и их отличия друг от друга, которые вы можете найти здесь. Кодировка 101 — часть 2.

памяти (кодирование, хранение, извлечение) | Noba

В 2013 году Саймон Рейнхард сидел перед 60 людьми в комнате Вашингтонского университета, где он запоминал все более длинные серии цифр. В первом раунде компьютер генерировал 10 случайных цифр — 6 1 9 4 8 5 6 3 7 1 — на экране в течение 10 секунд.После того, как серия исчезла, Саймон ввел их в свой компьютер. Его воспоминания были прекрасными. На следующем этапе на экране на 20 секунд появилось 20 цифр. И снова Саймон все понял правильно. Никто из присутствующих (в основном профессора, аспиранты и студенты) не мог точно вспомнить 20 цифр. Затем последовали 30 цифр, изученные в течение 30 секунд; И снова Саймон не пропустил ни одной цифры. В последнем испытании на экране на 50 секунд появилось 50 цифр, и Саймон снова их понял.Фактически, Саймон был бы счастлив продолжить работу. Его рекорд в этой задаче, которая называется «прямой диапазон цифр», составляет 240 цифр!

В некотором смысле память похожа на файловые ящики, в которых вы храните мысленную информацию. Память также представляет собой серию процессов: как эта информация сначала сохраняется и как ее извлекают, когда это необходимо? [Изображение: M Cruz, https://goo.gl/DhOMgp, CC BY-SA 4.0, https://goo.gl/SWjq94]

Когда большинство из нас становится свидетелем выступления, подобного представлению Саймона Рейнхарда, мы думаем об одном из две вещи: во-первых, может он как-то жульничает.(Нет, это не так.) Во-вторых, Саймон должен обладать более развитыми способностями, чем остальное человечество. В конце концов, психологи установили много лет назад, что нормальный объем памяти для взрослых составляет около семи цифр, причем некоторые из нас могут вспомнить несколько больше, а другие несколько меньше (Miller, 1956). Вот почему первые телефонные номера были ограничены семью цифрами — психологи определили, что много ошибок происходило (стоило денег телефонной компании), когда номер увеличивался даже до 8 цифр. Но при обычном тестировании никто не получает правильных 50 цифр подряд, не говоря уже о 240.Итак, у Саймона Рейнхарда просто фотографическая память? Он не. Вместо этого Саймон научил себя простым стратегиям запоминания, которые значительно увеличили его способность запоминать практически любой тип материала — цифры, слова, лица и имена, стихи, исторические даты и так далее. Двенадцатью годами ранее, до того, как он начал тренировать свои способности к памяти, у него, как и у большинства из нас, был размах цифр 7. На момент написания этой статьи Саймон тренировал свои способности около 10 лет и стал одним из двух лучших спортсменов по запоминанию.В 2012 году он занял второе место на чемпионате мира по запоминанию (состоящий из 11 заданий), проходившем в Лондоне. В настоящее время он занимает второе место в мире после другого немецкого конкурента Йоханнеса Маллоу. В этом модуле мы рассказываем, что психологи и другие специалисты узнали о памяти, а также объясняем общие принципы, с помощью которых вы можете улучшить свою память на основе фактического материала.

Чтобы стать хорошим шахматистом, вы должны научиться увеличивать рабочую память, чтобы вы могли заранее планировать несколько наступательных ходов, одновременно ожидая — с помощью памяти — как другой игрок может противостоять каждому из ваших запланированных ходов.[Изображение: karpidis, https://goo.gl/EhzMKM, CC BY-SA 2.0, https://goo.gl/jSSrcO]

Для большинства из нас запоминание цифр зависит от кратковременной памяти , или рабочая память — способность удерживать информацию в нашем сознании в течение короткого времени и работать с ней (например, умножение 24 x 17 без использования бумаги будет зависеть от рабочей памяти). Другой тип памяти — это эпизодическая память — способность запоминать эпизоды нашей жизни. Если бы вам дали задание вспомнить все, что вы делали 2 дня назад, это была бы проверка эпизодической памяти; от вас потребуется мысленно путешествовать по дню и отмечать основные события.Семантическая память — это хранилище более или менее постоянных знаний, таких как значения слов на языке (например, значение «зонтик от солнца») и огромная коллекция фактов о мире (например, в мире 196 стран. мир и 206 костей в вашем теле). Коллективная память относится к типу памяти, которую разделяют люди в группе (будь то семья, сообщество, одноклассники или граждане штата или страны). Например, жители небольших городов часто сильно отождествляют себя с этими городами, уникальным образом помня местные обычаи и исторические события.То есть коллективная память сообщества передает истории и воспоминания между соседями и будущими поколениями, образуя систему памяти для себя.

Психологи продолжают спорить о классификации типов памяти, а также о том, какие типы зависят от других (Tulving, 2007), но в этом модуле мы сосредоточимся на эпизодической памяти. Эпизодическая память — это обычно то, о чем люди думают, когда слышат слово «память». Например, когда люди говорят, что старшая родственница «теряет память» из-за болезни Альцгеймера, они имеют в виду неспособность вспомнить события или эпизодическую память.(Семантическая память фактически сохраняется при ранней стадии болезни Альцгеймера.) Хотя запоминание конкретных событий, которые произошли в течение всей жизни (например, вашего опыта в шестом классе), можно назвать автобиографической памятью, мы сосредоточимся в первую очередь на эпизодические воспоминания о более недавних событиях.

Психологи различают три необходимых этапа в процессе обучения и запоминания: кодирование, хранение и извлечение (Melton, 1963). Кодирование определяется как начальное изучение информации; хранение относится к сохранению информации в течение долгого времени; поиск — это возможность получить доступ к информации, когда она вам нужна.Если вы впервые встречаетесь на вечеринке, вам нужно закодировать ее имя (Лин Гофф), ассоциируя ее имя с ее лицом. Тогда вам нужно поддерживать информацию с течением времени. Если вы увидите ее неделю спустя, вам нужно узнать ее лицо и использовать его как подсказку, чтобы узнать ее имя. Любой успешный акт запоминания требует, чтобы все три стадии были нетронутыми. Однако также могут возникать ошибки двух типов. Забывание — это один из типов: вы видите человека, которого встретили на вечеринке, и не можете вспомнить ее имя.Другая ошибка — неправильное воспоминание (ложное воспоминание или ложное распознавание): вы видите кого-то, кто похож на Лин Гофф, и называете этого человека этим именем (ложное распознавание лица). Или вы можете увидеть настоящую Лин Гофф, узнать ее лицо, но затем назвать ее по имени другой женщины, которую вы встретили на вечеринке (неверное вспоминание ее имени).

Каждый раз, когда происходит забывание или неправильное воспоминание, мы можем спросить, на каком этапе процесса обучения / запоминания произошел сбой? — хотя часто бывает трудно ответить на этот вопрос с точностью.Одна из причин этой неточности заключается в том, что три этапа не так дискретны, как предполагает наше описание. Скорее, все три стадии зависят друг от друга. То, как мы кодируем информацию, определяет, как она будет храниться и какие сигналы будут эффективны, когда мы попытаемся ее получить. Кроме того, сам процесс поиска также изменяет способ последующего запоминания информации, обычно помогая позже вспомнить полученную информацию. На данный момент центральным моментом является то, что три этапа — кодирование, хранение и извлечение — влияют друг на друга и неразрывно связаны друг с другом.

Кодирование относится к начальному опыту восприятия и изучения информации. Психологи часто изучают воспоминания, предлагая участникам изучить список картинок или слов. Кодирование в таких ситуациях довольно просто. Однако «реальное» кодирование намного сложнее. Например, когда вы идете по кампусу, вы сталкиваетесь с бесчисленными видами и звуками — проходящими мимо друзьями, людьми, играющими во фрисби, музыкой в ​​воздухе. Физическая и ментальная среда слишком богата, чтобы вы могли кодировать все происходящее вокруг вас или внутренние мысли, которые у вас возникают в ответ на них.Итак, первый важный принцип кодирования состоит в том, что оно избирательно: мы уделяем внимание одним событиям в нашей среде и игнорируем другие. Второй момент, касающийся кодирования, заключается в том, что оно плодовито; мы всегда кодируем события нашей жизни — заботимся о мире, пытаемся понять его. Обычно это не представляет проблемы, поскольку наши дни наполнены рутинными событиями, поэтому нам не нужно обращать внимание на все. Но если что-то действительно кажется странным — во время ежедневной прогулки по кампусу вы видите жирафа, — мы обращаем пристальное внимание и пытаемся понять, почему мы видим то, что видим.

Жираф в зоопарке или его естественной среде обитания может регистрироваться как не более чем обычный, но поместить его в другое место — в центре кампуса или оживленного города — и уровень его отличительности резко возрастет. Самобытность — ключевой атрибут запоминания событий. [Изображение: Колин Дж. Бэбб, https://goo.gl/Cci2yl, CC BY-SA 2.0, https://goo.gl/jSSrcO]

Сразу после обычной прогулки по кампусу (одна без жирафа) , вы могли бы достаточно хорошо запомнить события, если бы вас спросили.Вы могли сказать, с кем вы столкнулись, какая песня играла по радио и так далее. Однако предположим, что кто-то попросил вас вспомнить ту же прогулку месяц спустя. У тебя не будет ни единого шанса. Скорее всего, вы сможете рассказать об основах типичной прогулки по кампусу, но не о точных деталях этой прогулки. Тем не менее, если бы вы увидели жирафа во время прогулки, это событие запомнилось бы вам надолго, возможно, на всю оставшуюся жизнь. Вы рассказываете об этом своим друзьям, и в более поздних случаях, когда вы видели жирафа, вы могли бы вспомнить тот день, когда вы видели его в университетском городке.Психологи давно определили, что различимость — то, что событие резко выделяется на фоне аналогичных событий — является ключом к запоминанию событий (Hunt, 2003).

Кроме того, когда яркие воспоминания окрашены сильным эмоциональным содержанием, они часто, кажется, оставляют на нас неизгладимый след. Публичные трагедии, такие как теракты, часто вызывают яркие воспоминания у тех, кто был их свидетелем. Но даже те из нас, кто непосредственно не участвовал в таких событиях, могут иметь яркие воспоминания о них, в том числе воспоминания о том, как впервые о них услышали.Например, многие люди могут вспомнить свое точное физическое местонахождение, когда они впервые узнали об убийстве или случайной смерти национального деятеля. Термин «флэш-память» был первоначально введен Брауном и Куликом (1977) для описания такого рода ярких воспоминаний об обнаружении важной новости. Название относится к тому, как некоторые воспоминания кажутся запечатленными в уме, как фотография со вспышкой; из-за самобытности и эмоциональности новостей кажется, что они навсегда запечатлеваются в сознании с исключительной ясностью по сравнению с другими воспоминаниями.

Найдите минутку и вспомните о своей жизни. Есть ли какие-то воспоминания, которые кажутся острее других? Воспоминание, в котором вы можете вспомнить необычные детали, такие как цвета обыденных вещей вокруг вас или точное положение окружающих предметов? Хотя люди очень доверяют воспоминаниям с лампами-вспышками, подобным этим, правда в том, что наша объективная точность с ними далека от совершенства (Talarico & Rubin, 2003). То есть, даже если люди могут очень доверять тому, что они вспоминают, их воспоминания не так точны (например,g., каковы были настоящие цвета; там, где действительно были размещены объекты), как они обычно представляют. Тем не менее, при прочих равных, отличительные и эмоциональные события хорошо запоминаются.

Детали не идеально переходят из мира в сознание человека. Можно сказать, что мы пошли на вечеринку и помним это, но то, что мы помним, — это (в лучшем случае) то, что мы закодировали. Как отмечалось выше, процесс кодирования является избирательным, и в сложных ситуациях замечаются и кодируются относительно немногие из многих возможных деталей.Процесс кодирования всегда включает в себя перекодирование, то есть извлечение информации из формы, которую она нам доставляет, а затем ее преобразование таким образом, чтобы мы могли понять ее смысл. Например, вы можете попытаться запомнить цвета радуги, используя аббревиатуру ROY G BIV (красный, оранжевый, желтый, зеленый, синий, индиго, фиолетовый). Процесс перекодировки цветов в имя может помочь нам запомнить. Однако перекодирование также может приводить к ошибкам — когда мы случайно добавляем информацию во время кодирования, помните, что новый материал , как если бы он был частью реального опыта (как обсуждается ниже).

Хотя это требует больше усилий, использование изображений и ассоциаций может улучшить процесс перекодирования. [Изображение: psd, https://goo.gl/9xjcDe, CC BY 2.0, https://goo.gl/9uSnqN]

Психологи изучили множество стратегий перекодирования, которые можно использовать во время исследования для улучшения удержания. Во-первых, исследования советуют в процессе изучения думать о значении событий (Craik & Lockhart, 1972) и пытаться соотнести новые события с уже известной нам информацией. Это помогает нам формировать ассоциации, которые мы можем использовать для получения информации позже.Во-вторых, воображение событий также делает их более запоминающимися; создание ярких образов из информации (даже словесной) может значительно улучшить последующее запоминание (Bower & Reitman, 1972). Создание изображений — это часть техники, которую Саймон Рейнхард использует для запоминания огромного количества цифр, но все мы можем использовать изображения для более эффективного кодирования информации. Основная концепция хороших стратегий кодирования состоит в том, чтобы сформировать отличительные воспоминания (те, которые выделяются) и сформировать связи или ассоциации между воспоминаниями, чтобы помочь в последующем извлечении (Hunt & McDaniel, 1993).Использовать учебные стратегии, подобные описанным здесь, сложно, но эти усилия окупают преимущества улучшенного обучения и удержания.

Ранее мы подчеркивали, что кодирование является избирательным: люди не могут кодировать всю информацию, которой они подвергаются. Однако перекодирование может добавить информацию, которую даже не видели и не слышали на начальном этапе кодирования. Некоторые процессы перекодирования, такие как формирование ассоциаций между воспоминаниями, могут происходить без нашего ведома. Это одна из причин, по которой люди иногда могут вспомнить события, которых на самом деле не было, — потому что в процессе перекодирования добавлялись детали.Один из распространенных способов вызвать ложные воспоминания в лаборатории — это составить список слов (Deese, 1959; Roediger & McDermott, 1995). Участники слышат списки из 15 слов, таких как дверь , стекло, стекло, штора, выступ, подоконник, дом, открытый, занавес, рама, вид, ветер, створка, экран, ставня и . Позже участникам предлагают тест, в котором им показывают список слов и просят выбрать те, которые они слышали ранее. Этот второй список содержит несколько слов из первого списка (например,g., дверь, стекло, рама ) и некоторые слова не из списка (например, рука, телефон, бутылка ). В этом примере одно из слов в тесте — это окно , которое, что важно, не появляется в первом списке, но связано с другими словами в этом списке. Когда испытуемые были протестированы, они были достаточно точны с изучаемыми словами (, и т. Д.), Узнавая их в 72% случаев. Однако, когда тестировалось окно , они ошибочно определили, что оно было в списке 84% времени (Stadler, Roediger, & McDermott, 1999).То же самое произошло и со многими другими списками, которые использовали авторы. Это явление называется эффектом DRM (от Deese-Roediger-McDermott). Одно из объяснений таких результатов заключается в том, что, пока студенты слушали элементы в списке, эти слова побуждали студентов думать об окне , хотя окно и никогда не было представлено. Таким образом кажется, что люди кодируют события, которые на самом деле не являются частью их опыта.

Поскольку люди творческие люди, мы всегда выходим за рамки той информации, которую нам дают: мы автоматически создаем ассоциации и делаем из них выводы о том, что происходит.Но, как и в случае с путаницей слов, описанной выше, иногда мы создаем ложные воспоминания из наших умозаключений, запоминая сами умозаключения, как если бы они были реальным опытом. Чтобы проиллюстрировать это, Брюэр (1977) дал людям запомнить предложения, которые были разработаны, чтобы вызвать прагматических выводов . Выводы, как правило, относятся к случаям, когда что-то явно не указано, но мы все еще можем угадать нераскрытое намерение. Например, если ваша подруга сказала вам, что не хочет идти куда-нибудь поесть, вы можете сделать вывод, что у нее нет денег, чтобы пойти куда-нибудь, или что она слишком устала.При прагматических выводах обычно есть один конкретный вывод , который вы, вероятно, сделаете. Рассмотрим высказывание Брюэр (1977), сделанное ее участникам: «Чемпион по карате ударил по шлакоблоку». Услышав или увидев это предложение, участники, прошедшие тест на память, как правило, вспоминали высказывание, которое гласило: «Чемпион по карате сломал шлакобетон». Это запомненное утверждение не обязательно является логическим выводом (т.е. вполне разумно, что чемпион по карате может ударить шлакоблок, не сломав его).Тем не менее, прагматичный вывод , услышав такое предложение, состоит в том, что блок, вероятно, был сломан. Участники запомнили этот вывод, который они сделали, когда слышали предложение вместо слов, которые были в предложении (см. Также McDermott & Chan, 2006).

Кодирование — начальная регистрация информации — имеет важное значение в процессе обучения и запоминания. Если событие не закодировано каким-либо образом, оно не будет успешно запомнено позже. Однако только потому, что событие закодировано (даже если оно хорошо закодировано), нет гарантии, что оно будет запомнено позже.

Следы памяти или инграммы НЕ являются идеально сохранившимися записями прошлых переживаний. Следы объединяются с текущими знаниями, чтобы восстановить то, что, как мы думаем, произошло в прошлом. [Саймон Бирдвальд, https://goo.gl/JDhdCE, CC BY-NC-SA 2.0, https://goo.gl/jSSrcO]

Каждый опыт меняет наш мозг. Поначалу это может показаться смелым и даже странным заявлением, но это правда. Мы кодируем каждый из наших переживаний в структурах нервной системы, делая в процессе новые впечатления — и каждое из этих впечатлений включает изменения в мозге.Психологи (и нейробиологи) говорят, что переживания оставляют следы памяти или инграммы (эти два термина являются синонимами). Воспоминания должны храниться где-то в мозгу, поэтому для этого мозг биохимически изменяет себя и свою нервную ткань. Точно так же, как вы можете написать себе записку, чтобы напомнить вам о чем-то, мозг «записывает» след в памяти, изменяя для этого свой физический состав. Основная идея состоит в том, что события (события в нашей среде) создают инграммы в процессе консолидации: нейронные изменения, которые происходят после обучения, чтобы создать след в памяти опыта.Хотя нейробиологов интересует, какие именно нейронные процессы изменяются при создании воспоминаний, для психологов термин след памяти просто относится к физическим изменениям в нервной системе (какими бы они ни были), которые представляют наш опыт.

Хотя концепция инграммы или следа памяти чрезвычайно полезна, мы не должны понимать этот термин слишком буквально. Важно понимать, что следы памяти — это не идеальные маленькие пакеты информации, которые бездействуют в мозгу, ожидая, когда их вызовут, чтобы дать точный отчет о прошлом опыте.Следы памяти не похожи на видео или аудиозаписи, они фиксируют впечатления с большой точностью; как обсуждалось ранее, у нас часто бывают ошибки в нашей памяти, которых не существовало бы, если бы следы памяти были идеальными пакетами информации. Таким образом, неправильно думать, что запоминание подразумевает просто «зачитывание» достоверных записей прошлого опыта. Скорее, когда мы вспоминаем прошлые события, мы реконструируем их с помощью наших следов в памяти — но также и с нашей нынешней верой в то, что произошло. Например, если вы пытались отозвать для полиции, кто устроил драку в баре, у вас может не остаться в памяти следов, кто кого первым толкнул.Однако, допустим, вы помните, что один из парней открыл для вас дверь. Если вспомнить начало боя, это знание (как один парень был дружелюбен к вам) может бессознательно повлиять на ваше воспоминание о том, что произошло, в пользу хорошего парня. Таким образом, память — это конструкция из того, что вы на самом деле вспоминаете и что, по вашему мнению, произошло. Проще говоря, воспоминание является реконструктивным (мы реконструируем наше прошлое с помощью следов памяти), а не репродуктивным (совершенное воспроизведение или воссоздание прошлого).

Психологи называют время между обучением и тестированием интервалом удержания. Воспоминания могут консолидироваться в течение этого времени, помогая удерживать их. Однако также могут возникать переживания, подрывающие память. Например, подумайте, что вы ели вчера на обед — довольно простая задача. Однако, если вам пришлось вспомнить, что вы ели на обед 17 дней назад, вы вполне можете потерпеть неудачу (при условии, что вы не едите одно и то же каждый день). 16 обедов, которые вы съели с тех пор, вызвали обратное вмешательство.Ретроактивное вмешательство относится к новым действиям (т. Е. Последующим обедам) в течение интервала сохранения (т. Е. Времени между обедом 17 дней назад и сейчас), которые мешают восстановлению конкретных, более старых воспоминаний (т. Е. Подробностей обеда из 17 дней назад). ). Но точно так же, как новые вещи могут мешать запоминанию старых, может произойти и обратное. Проактивное вмешательство — это когда прошлые воспоминания мешают кодированию новых. Например, если вы когда-либо изучали второй язык, часто грамматика и лексика вашего родного языка всплывают у вас в голове, что ухудшает ваше свободное владение иностранным языком.

Обратное вмешательство — одна из основных причин забывания (McGeoch, 1932). В модуле Свидетельства очевидцев и предубеждения в памяти http://noba.to/uy49tm37 Элизабет Лофтус описывает свою увлекательную работу над памятью очевидцев, в которой она показывает, как память о событии может быть изменена с помощью дезинформации, предоставленной во время интервала сохранения. Например, если вы стали свидетелем автокатастрофы, но впоследствии слышали, как люди описывают ее со своей точки зрения, эта новая информация может помешать или нарушить ваши личные воспоминания об аварии.Фактически, вы даже можете вспомнить, что событие происходило именно так, как его описывали другие! Этот эффект дезинформации в памяти очевидцев представляет собой тип ретроактивного вмешательства, которое может происходить в течение интервала сохранения (см. Обзор в Loftus [2005]). Конечно, если в течение интервала сохранения предоставляется правильная информация, память свидетеля обычно улучшается.

Хотя между возникновением события и попыткой вспомнить его может возникнуть интерференция, сам эффект всегда проявляется, когда мы извлекаем воспоминания — тему, к которой мы обратимся дальше.

Эндел Тулвинг утверждал, что «ключевой процесс в памяти — это поиск» (1991, p. 91). Почему поиску следует уделять больше внимания, чем кодированию или хранению? Во-первых, если бы информация была закодирована и сохранена, но не могла быть получена, она была бы бесполезной. Как обсуждалось ранее в этом модуле, мы кодируем и сохраняем тысячи событий — разговоров, образов и звуков — каждый день, создавая следы в памяти. Однако позже мы получаем доступ только к крошечной части того, что мы приняли. Большая часть наших воспоминаний никогда не будет использована — в том смысле, что они будут возвращены в сознание.Этот факт кажется настолько очевидным, что мы редко задумываемся над ним. Все те события, которые произошли с вами в четвертом классе, которые тогда казались такими важными? Теперь, много лет спустя, вам будет сложно вспомнить даже несколько. Вы можете задаться вопросом, существуют ли все еще следы этих воспоминаний в какой-то скрытой форме. К сожалению, с помощью доступных в настоящее время методов узнать это невозможно.

Психологи различают информацию, которая доступна в памяти, от информации, доступной (Tulving & Pearlstone, 1966). Доступная информация — это информация, которая хранится в памяти, но точно неизвестно, сколько и какие типы хранятся. То есть все, что мы можем знать, — это то, какую информацию мы можем извлечь — единиц доступной информации, единиц информации. Предполагается, что доступная информация представляет собой лишь крошечный фрагмент информации, доступной в нашем мозгу. У большинства из нас был опыт попытки вспомнить какой-то факт или событие, сдаваться, а затем — внезапно! — это приходит к нам позже, даже после того, как мы перестали пытаться его вспомнить.Точно так же все мы знаем опыт неспособности вспомнить факт, но тогда, если нам дается несколько вариантов выбора (как в тесте с несколькими вариантами ответов), мы легко можем его распознать.

Мы не можем знать все, что находится в нашей памяти, а знать только ту часть, которую мы действительно можем извлечь. То, что сейчас невозможно восстановить и что, казалось бы, утеряно из памяти, может снова появиться с применением различных сигналов. [Изображение: Ores2k, https://goo.gl/1du8Qe, CC BY-NC-SA 2.0, https://goo.gl/jSSrcO]

Какие факторы определяют, какую информацию можно извлечь из памяти? Одним из критических факторов является тип подсказок, или подсказок, , в окружающей среде.Вы можете услышать по радио песню, которая внезапно пробуждает воспоминания о более раннем периоде вашей жизни, даже если вы не пытались вспомнить ее, когда эта песня началась. Тем не менее, песня тесно связана с тем временем, поэтому она напоминает о переживаниях.

Общий принцип, лежащий в основе эффективности поисковых сигналов, — это принцип специфичности кодирования (Tulving & Thomson, 1973): когда люди кодируют информацию, они делают это определенным образом. Например, возьмем песню по радио: возможно, вы слышали ее, когда были на потрясающей вечеринке, во время отличного философского разговора с другом.Таким образом, песня стала частью этого сложного опыта. Спустя годы, даже если вы не задумывались об этой вечеринке целую вечность, когда вы слышите песню по радио, все переживания возвращаются к вам. В общем, принцип специфичности кодирования гласит, что в той степени, в которой поисковый сигнал (песня) совпадает или перекрывает след в памяти опыта (вечеринки, беседы), он будет эффективен в пробуждении воспоминания. В классическом эксперименте по принципу специфичности кодирования участники запоминали набор слов в уникальной обстановке.Позже участников проверяли на наборах слов либо в том же месте, где они выучили слова, либо в другом. В результате специфичности кодирования студенты, которые проходили тест в том же месте, где они выучили слова, на самом деле смогли вспомнить больше слов (Godden & Baddeley, 1975), чем студенты, которые проходили тест в новых условиях.

Одно предостережение в отношении этого принципа состоит в том, что для того, чтобы сигнал сработал, он не может совпадать со слишком многими другими переживаниями (Nairne, 2002; Watkins, 1975).Рассмотрим лабораторный эксперимент. Предположим, вы изучаете 100 предметов; 99 слов, а одно изображение — пингвина, позиция 50 в списке. После этого реплика «вспомнить картинку» будет идеально вызывать «пингвина». Никто бы этого не пропустил. Однако, если бы слово «пингвин» было помещено на том же месте среди других 99 слов, его запоминаемость была бы исключительно хуже. Этот результат демонстрирует силу различения, которую мы обсуждали в разделе о кодировании: одно изображение прекрасно запоминается из 99 слов, потому что оно выделяется.Теперь подумайте, что бы произошло, если бы эксперимент повторился, но в списке из 100 пунктов было бы 25 изображений. Хотя изображение пингвина все еще будет там, вероятность того, что сигнал «вспомнить картинку» (пункт 50) будет полезна для пингвина, соответственно снизится. Уоткинс (1975) назвал этот результат демонстрацией принципа перегрузки реплики. То есть, чтобы быть эффективным, поисковый сигнал не может быть перегружен слишком большим количеством воспоминаний. Чтобы сигнал «вспомнить изображение» был эффективным, он должен соответствовать только одному элементу в целевом наборе (как в случае с одним изображением, состоящим из 99 слов).

Подводя итог тому, как работают сигналы памяти: для того, чтобы сигнал поиска был эффективным, должно существовать соответствие между сигналом и желаемой целевой памятью; кроме того, для обеспечения наилучшего поиска отношения метка-цель должны быть четкими. Далее мы увидим, как принцип специфичности кодирования может работать на практике.

Психологи измеряют производительность памяти с помощью производственных тестов (включающих вспоминание) или тестов распознавания (включающих выбор верной информации из неверной, например.g., тест с множественным выбором). Например, с нашим списком из 100 слов одну группу людей можно попросить вспомнить список в любом порядке (бесплатный тест на запоминание), в то время как другую группу можно попросить обвести 100 изученных слов из смеси с другой. 100, неизученные слова (тест распознавания). В этой ситуации тест распознавания, вероятно, даст участникам больше результатов, чем тест вспоминания.

Обычно мы думаем о тестах распознавания как о довольно простых, потому что сигнал для поиска — это копия реального события, которое было представлено для изучения.В конце концов, что может быть лучшим сигналом, чем точная цель (память), к которой человек пытается получить доступ? В большинстве случаев это рассуждение верно; тем не менее, тесты распознавания не дают точных указателей того, что хранится в памяти. То есть вы можете не распознать цель, смотрящую вам прямо в лицо, но все же сможете вспомнить ее позже с другим набором сигналов (Watkins & Tulving, 1975). Например, предположим, что вам нужно было узнать фамилии известных авторов. Сначала вы могли подумать, что настоящая фамилия всегда будет лучшим сигналом.Однако исследования показали, что это не обязательно так (Muter, 1984). Когда им дают такие имена, как Толстой, Шоу, Шекспир и Ли, испытуемые вполне могут сказать, что Толстой и Шекспир — известные авторы, а Шоу и Ли — нет. Но, когда люди проходят тест на запоминание с использованием имен, люди часто вспоминают (производят их) предметы, которые они не могли распознать раньше. Например, в этом случае реплика типа Джордж Бернард ________ часто приводит к воспоминанию о «Шоу», хотя люди изначально не могли распознать Шоу как имя известного автора.Тем не менее, когда люди получают реплику «Уильям», люди могут не придумать Шекспира, потому что Уильям — это распространенное имя, которое подходит многим людям (принцип перегрузки репликами в действии). Этот странный факт — напоминание может иногда приводить к лучшей производительности, чем распознавание, — можно объяснить принципом специфичности кодирования. Например, Джордж Бернард _________ лучше соответствует способу хранения в памяти известного писателя, чем его фамилия Шоу (хотя это и является целью). Кроме того, совпадение весьма характерно для Джорджа Бернарда ___________, но реплика William _________________ намного более перегружена (принц Уильям, Уильям Йейтс, Уильям Фолкнер, будут.я).

Явление, которое мы описали, называется отказом распознавания запоминаемых слов , что подчеркивает тот момент, что реплика будет наиболее эффективной в зависимости от того, как была закодирована информация (Tulving & Thomson, 1973). Дело в том, что сигналы, которые лучше всего работают для вызова поиска, — это те, которые воссоздают событие или имя, которое нужно запомнить, тогда как иногда даже сама цель, такая как Shaw в приведенном выше примере, не является лучшим сигналом. Какой сигнал будет наиболее эффективным, зависит от того, как была закодирована информация.

Всякий раз, когда мы думаем о своем прошлом, мы участвуем в поиске. Обычно мы думаем, что извлечение информации — это объективный акт, потому что мы склонны представлять, что извлечение воспоминаний похоже на снятие книги с полки, и после того, как мы закончили с ней, мы возвращаем книгу на полку в том виде, в котором она была. Однако исследования показывают, что это предположение неверно; память не является статическим хранилищем данных, она постоянно меняется. Фактически, каждый раз, когда мы извлекаем воспоминание, оно изменяется. Например, сам процесс извлечения (факта, концепции или события) увеличивает вероятность повторного извлечения извлеченной памяти, явление, называемое эффектом тестирования или эффектом практики извлечения (Pyc & Rawson, 2009; Родигер и Карпике, 2006).Однако получение некоторой информации может фактически заставить нас забыть другую связанную с ней информацию, явление, называемое забыванием , вызванным поиском, (Anderson, Bjork, & Bjork, 1994). Таким образом, извлечение информации может быть палкой о двух концах — укреплять только что извлеченную память (обычно в большом количестве), но при этом наносить ущерб связанной информации (хотя этот эффект часто относительно невелик).

Как обсуждалось ранее, восстановление далеких воспоминаний является реконструктивным. Мы вплетаем конкретные обрывки событий с предположениями и предпочтениями, чтобы сформировать связную историю (Bartlett, 1932).Например, если во время вашего 10-летия ваша собака добралась до вашего торта раньше вас, вы, вероятно, будете рассказывать эту историю много лет спустя. Скажем, в последующие годы вы неправильно помните, где собака на самом деле нашла торт, но повторяете эту ошибку снова и снова во время последующих пересказов истории. Со временем эта неточность станет основным фактом происходящего в вашей голове. Подобно тому, как практика поиска (повторение) усиливает точные воспоминания, она усиливает ошибки или ложные воспоминания (McDermott, 2006).Иногда воспоминания можно даже создать, просто услышав яркую историю. Рассмотрим следующий эпизод, рассказанный Жаном Пиаже, известным психологом развития, из своего детства:

Одно из моих первых воспоминаний датируется, если это правда, моим вторым годом. Я все еще могу отчетливо разглядеть следующую сцену, в которую я верил, пока мне не исполнилось 15 лет. Я сидел в своей детской коляске. . . когда мужчина пытался меня похитить. Меня держали за ремешок, застегнутый вокруг меня, пока моя няня отважно пыталась встать между мной и вором.Она получила различные царапины, и я все еще смутно вижу их на ее лице. . . . Когда мне было около 15 лет, мои родители получили письмо от моей бывшей медсестры, в которой говорилось, что она была обращена в Армию спасения. Она хотела признаться в своих прошлых ошибках и, в частности, вернуть часы, которые ей подарили по этому поводу. Она выдумала всю историю, подделав царапины. Поэтому я, должно быть, в детстве слышал эту историю, в которую верили мои родители, и спроецировал ее в прошлое в форме визуального воспоминания.. . . Несомненно, многие настоящие воспоминания принадлежат к тому же порядку. (Norman & Schacter, 1997, стр. 187–188)

Яркий отчет Пиаже представляет собой случай чистой реконструктивной памяти. Он неоднократно слышал эту историю и, несомненно, сам ее рассказывал (и думал над ней). Повторяющееся повествование закрепило события так, как если бы они действительно произошли, точно так же, как мы все открыты для возможности иметь «много настоящих воспоминаний … одного порядка». Тот факт, что можно вспомнить точные детали (местоположение, царапины), не обязательно означает, что воспоминание верное, что также было подтверждено в лабораторных исследованиях (например,г., Norman & Schacter, 1997).

Центральной темой этого модуля была важность процессов кодирования и извлечения, а также их взаимодействия. Напомним: чтобы улучшить обучение и память, нам нужно кодировать информацию в сочетании с отличными сигналами, которые будут возвращать запомненные события, когда они нам нужны. Но как нам это сделать? Помните о двух важных принципах, которые мы обсудили: для максимального извлечения информации мы должны сконструировать осмысленных сигналов , которые напоминают нам об исходном опыте, и эти сигналы должны быть , отличительными и , не связанными с другими воспоминаниями .Эти два условия имеют решающее значение для максимальной эффективности сигнала (Nairne, 2002).

Итак, как эти принципы можно адаптировать для использования во многих ситуациях? Давайте вернемся к тому, как мы начали модуль, к способности Саймона Рейнхарда запоминать огромное количество цифр. Хотя это и не было очевидным, он применил те же общие принципы памяти, но более осознанно. Фактически, все мнемонические устройства или вспомогательные средства / приемы запоминания полагаются на эти фундаментальные принципы. В типичном случае человек изучает набор сигналов, а затем применяет их для изучения и запоминания информации.Рассмотрим набор из 20 пунктов ниже, которые легко выучить и запомнить (Bower & Reitman, 1972).

  1. — ружье. 11 — это булочка для хот-догов за пенни.
  2. — это башмак. 12 — пенни-два, самолетный клей.
  3. — дерево. 13 — пенни три, шмель.
  4. — это дверь. 14 март, продуктовый магазин.
  5. — это ножи. 15 — пять пенни, большой улей.
  6. — это палочки. 16 — это пенни шесть, фокусы.
  7. — духовка. 17 — семь пенни, иди в рай.
  8. пластина. 18 — восемь пенни, золотые ворота.
  9. — вино. 19 — это пенни-девять, клубок шпагата.
  10. курица. 20 — пенни десять, шариковая ручка.

Возможно, вам понадобится менее 10 минут, чтобы выучить этот список и попрактиковаться в его повторении несколько раз (не забудьте использовать практику поиска!). Если бы вы сделали это, у вас был бы набор ключевых слов, на которые вы могли бы «повесить» воспоминания. Фактически, этот мнемонический прием называется методом привязки слов .Если затем вам нужно было запомнить какие-то отдельные элементы — например, список покупок или моменты, которые вы хотели высказать в своей речи, — этот метод позволит вам сделать это очень точным, но гибким способом. Предположим, вам нужно вспомнить хлеб, арахисовое масло, бананы, салат и так далее. Способ использования метода — сформировать яркое изображение того, что вы хотите запомнить, и представить, как это взаимодействует с вашими ключевыми словами (столько, сколько вам нужно). Например, для этих предметов вы можете представить себе, как большой пистолет (первое слово-колышек) стреляет в буханку хлеба, затем банку с арахисовым маслом внутри обуви, затем большие гроздья бананов, свисающие с дерева, а затем хлопнувшую дверь. кочан салата с развевающимися повсюду листьями.Идея состоит в том, чтобы дать хорошие, отличительные подсказки (чем страннее, тем лучше!) Для информации, которую вам нужно запомнить, пока вы ее изучаете. Если вы сделаете это, то позже восстановить его будет относительно легко. Вы прекрасно знаете свои реплики (одна из них — пистолет и т. Д.), Поэтому вы просто просматриваете свой список ключевых слов и мысленно «смотрите» на сохраненное в нем изображение (в данном случае хлеб).

Пример пневмонической системы, созданной студентом для изучения черепных нервов. [Изображение: Kelidimari, https://goo.gl/kiA1kP, CC BY-SA 3.0, https://goo.gl/SCkRfm]

Этот метод привязки слов может сначала показаться странным, но он работает довольно хорошо, даже после небольшого обучения (Roediger, 1980). Однако одно предупреждение: элементы, которые нужно запомнить, нужно сначала предъявлять относительно медленно, пока вы не научитесь связывать каждый с его ключевым словом. Со временем люди становятся быстрее. Еще один интересный аспект этой техники заключается в том, что вызывать элементы в обратном порядке так же легко, как и вперед. Это связано с тем, что слова-привязки обеспечивают прямой доступ к запомненным элементам независимо от порядка.

Как Саймон Рейнхард запомнил эти цифры? По сути, у него гораздо более сложная система, основанная на тех же принципах. В своем случае он использует «дворцы памяти» (сложные сцены с отдельными местами) в сочетании с огромными наборами изображений для цифр. Например, представьте, что вы мысленно идете по дому, в котором вы выросли, и определяете как можно больше отдельных областей и объектов. У Саймона есть сотни таких дворцов памяти, которые он использует. Затем для запоминания цифр он запомнил набор из 10 000 образов.Каждое четырехзначное число немедленно вызывает у него мысленный образ. Так, например, 6187 может вспомнить Майкла Джексона. Когда Саймон слышит все числа, идущие к нему, он помещает изображение для каждых четырех цифр в места своего дворца памяти. Он может делать это с невероятно высокой скоростью, быстрее, чем 4 цифры за 4 секунды, когда они мигают визуально, как в демонстрации в начале модуля. Как уже отмечалось, его запись составляет 240 цифр, вызываемых в точном порядке. Саймон также является мировым рекордсменом в мероприятии под названием «Скоростные карты», которое включает в себя запоминание точного порядка перетасованной колоды карт.Саймон смог сделать это за 21,19 секунды! Опять же, он использует свои дворцы памяти и кодирует группы карт как отдельные изображения.

Существует множество книг о том, как улучшить память с помощью мнемонических устройств, но все они включают в себя формирование отличительных операций кодирования и затем наличие безошибочного набора сигналов памяти. Мы должны добавить, что разработка и использование этих систем памяти помимо базовой системы привязки, описанной выше, требует большого количества времени и концентрации. Чемпионаты мира по запоминанию проводятся каждый год, и показатели продолжают улучшаться.Однако для наиболее распространенных целей просто имейте в виду, что для хорошего запоминания вам необходимо кодировать информацию особым образом и иметь хорошие подсказки для поиска. Вы можете адаптировать систему, которая будет соответствовать практически любой цели.

Что такое кодирование? — Определение из Техопедии

Что означает кодирование?

Кодирование — это процесс преобразования данных в формат, необходимый для ряда потребностей обработки информации, в том числе:

  • Компиляция и выполнение программы
  • Передача, хранение и сжатие / декомпрессия данных
  • Обработка данных приложений, например преобразование файлов

Кодирование может иметь два значения:

  • В компьютерных технологиях кодирование — это процесс применения определенного кода, такого как буквы, символы и числа, к данным для преобразования в эквивалентный шифр.
  • В электронике кодирование означает аналого-цифровое преобразование.

Techopedia объясняет кодировку

Кодирование включает использование кода для преобразования исходных данных в форму, которая может использоваться внешним процессом.

Тип кода, используемый для преобразования символов, известен как Американский стандартный код для обмена информацией (ASCII), наиболее часто используемая схема кодирования для файлов, содержащих текст. ASCII содержит печатные и непечатаемые символы, которые представляют прописные и строчные буквы, символы, знаки препинания и числа.Некоторым персонажам присваивается уникальный номер.

Стандартная схема ASCII имеет только от нуля до 127 позиций символов; 128–255 не определены. Проблема неопределенных символов решается с помощью кодировки Unicode, которая присваивает номер каждому символу, используемому во всем мире. К другим типам кодов относятся BinHex, Uuencode (кодировка UNIX в UNIX) и многоцелевые расширения почты Интернета (MIME).

Кодирование также используется для уменьшения размера аудио- и видеофайлов. Каждый формат аудио- и видеофайлов имеет соответствующую программу кодера-декодера (кодека), которая используется для кодирования его в соответствующий формат, а затем декодирования для воспроизведения.

Кодирование не следует путать с шифрованием, которое скрывает контент. Оба метода широко используются в сетях, программировании, беспроводной связи и хранении данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *