Кодирование текстовой информации определение: Кодирование текстовой информации | Практическая работа 2.1

Содержание

Кодирование текстовой информации | Практическая работа 2.1






§ 2.1. Кодирование текстовой информации



Содержание урока

Кодирование текстовой информации

Практическая работа 2.1


Практическая работа 2.1

Кодирование текстовой информации

Аппаратное и программное обеспечение. Компьютер с установленной операционной системой Windows или Linux.

Цель работы. Научиться определять числовые коды символов и осуществлять перекодировку русскоязычного текста в текстовом редакторе.

Задание 1. В текстовом редакторе определить числовые (шестнадцатеричные) коды нескольких символов в кодировке Unicode {Юникод).

Задание 2. В текстовом редакторе Hieroglyph представить слово «Кодировка» в пяти различных кодировках: Windows, MS-DOS, КОИ-8, Mac, ISO.

Задание 1. Определение числового кода символа с помощью текстовых редакторов Microsoft Word и OpenOffice.org Writer

1. В операционной системе

Windows запустить текстовый редактор Microsoft Word командой [Пуск — Все программы — Microsoft Office — Microsoft Word] или текстовый редактор OpenOffice.org Writer командой [Пуск — Все программы — OpenOffice — OpenOffice Writer].

Или:

в операционной системе Linux запустить текстовый редактор OpenOffice.org Writer командой [Пуск — Офис — OpenOffice Writer].

Определим числовой код символа в текстовом редакторе Microsoft Word.

2. В текстовом редакторе Microsoft Word ввести команду [Вставка — Символ — Другие символы…]. На экране появится диалоговое окно Символы. Центральную часть диалогового окна занимает фрагмент таблицы символов.

3. Для определения числового кода знака кириллицы с помощью раскрывающегося списка

Набор: выбрать пункт кириллица.

4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шести.).

5. В таблице символов выбрать символ (например, заглавную букву «Ё»). В текстовом поле Код знака: появится его шестнадцатеричный числовой код (в данном случае 0401).

Перевод числового кода символа из шестнадцатеричной системы счисления в десятичную систему счисления можно осуществить с помощью программного калькулятора NumLock Calculator.

Определим числовой код символа в текстовом редакторе OpenOffice.org Writer.

6. В текстовом редакторе OpenOffice.org Writer ввести команду [Вставка — Специальные символы…

]. На экране появится диалоговое окно Выбор символа. Центральную часть диалогового окна занимает фрагмент таблицы символов.

7. Для определения числового кода знака кириллицы с помощью раскрывающегося списка Набор выбрать пункт Кириллица.

8. В таблице символов выбрать символ (например, заглавную букву «Ё»). В правом нижнем углу диалогового окна появится его шестнадцатеричный числовой код (в данном случае 0401).

Перевод числового кода символа из шестнадцатеричной системы счисления в десятичную систему счисления можно осуществить с помощью программного калькулятора KCalc.

Задание 2. Перекодирование русскоязычного текста в текстовом редакторе Hieroglyph


Текстовый редактор Иероглиф является на сегодняшний день единственным редактором серьезно ориентированным на работу с русскими текстами с таким обширным набором функций (порядка 30) при совсем небольшом размере (порядка 3 MB в архиве). Иероглиф может использоваться как редактор по умолчанию вместо Notepad и Wordpad. Иероглиф является хорошим дополнением к Microsoft Word. Иероглиф также заменит вам все ваши программы перекодировки, работы с испорченной почтой, работы с UNICODE и решит все проблемы русификации.

Загрузить текстовый редактор Иероглиф:
✑ С сайта Hieroglyph Web Page.
✑ Скачать архив установочных файлов (Hieroglyph.zip) редактора.


1. В операционной системе Windows запустить текстовый редактор Hieroglyph командой [Пуск — Все программы — Hieroglyph].

2. В раскрывающемся списке исходных кодировок выбрать кодировку WIN и ввести текст: «Кодировка Windows».

3. Скопировать текст четыре раза.

Последовательно выделить строки, выбрать для каждой конечную кодировку в раскрывающемся списке (DOS, ISO, KOI и Mac), нажать кнопку Перевод кодировки.

Для каждой кодировки отредактировать ее название.

4. В результате получим пять строк символов в различных кодировках, где первое слово в каждой строке соответствует одной и той же последовательности числовых кодов.

Cкачать материалы урока



Кодирование текстовой информации. Практическая работа 7 класс.

7 класс

Компьютерный практикум для учащихся к разделу:

Кодирование текстовой информации

Задание 1.

Для выполнения заданий использовать текстовые редакторы MS Word и Блокнот.

Необходимо определить код символа и найти символ по коду при помощи вставки специальных символов (Вставка →Символы).

Решение: Выбирая необходимый символ, мы можем увидеть его числовой код в нижнем правом углу окна. Все символы в таблице упорядочены по возрастанию числовых кодов, поэтому можно найти символ с заданным вам числовым кодом.

Результат:

«WORD»

200 205 212 206 208 204 192 210 200 202 192- «ИНФОРМАТИКА» в «Windows»

Определение числового кода символа с помощью текстового редактора Word.

1. Запустить текстовый редактор Word командой [Программы/Microsoft Word]

2. Ввести команду [вставка/символ]. На экране появится диалоговая панель Символ. Для определения числового кода символа в кодировке Windows с помощью раскрывающегося списка из: выбрать тип кодировки кириллица (дес.).

3. В таблице символов выбрать символ (например, прописную букву «А»). В текстовом поле Код знака: появится десятичный числовой код символа (в данном случае 192).

4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод(шестн.)

5. В таблице символов выбрать символ (например, прописную букву «А»). В текстовом поле Код знака: появится шестнадцатеричный числовой код символа (в данном случае 0410).

В «Блокнот» набрать: «абвгдежий рстуфхцчшщ — Я хочу учиться»

Ввод символа с помощью числовых кодов в текстовом редакторе Блокнот

1. Запустить стандартное приложение Блокнот командой [Программы/ Стандартные/ Блокнот]

2. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 0224, отпустить клавишу {Alt}, в документе появится символ «а». Повторить процедуру для числовых кодов от 0225 до 0233, в документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows.

3. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 224, в документе появится символ «р». Повторить процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS-DOS

СР1251 — наиболее распространенной в настоящее время является кодировка Microsoft Windows, («CP» означает «Code Page», «кодовая страница»).

Кодировка CP1251

1) #160 неразрывный пробел,

2) #173 мягкий перенос.

· СР866 — кодировка под MS DOS

Кодировка СР866

1) #255 неразрывный пробел.

Задание2:

1. Используя кодировку Windows, расположенную в текстовом редакторе Microsoft Word закодировать слово КОМПЬЮТЕР

2. Используя кодировку Unicode, расположенную в текстовом редакторе Microsoft Word декодируйте слово 0423 0427 0415 041D 0418 041А

3. Используя кодировку Windows, расположенную в приложении Блокнот декодируйте предложение:

0255 0032 0245 0238 0247 0243 0032 0243 0247 0232 0242 0252 0241 0255

Кодирование текстовой информации

Кодирование текстовой информации

Введение

Если у вас имеются какие-либо непонимания с такой темой, как «Кодирование текстовой информации», то записывайтесь ко мне на индивидуальный урок по информатике. На репетиторском уроке мы с вами детально разберем абсолютно все возникшие у вас вопросы и прорешаем колоссальное количество тематических упражнений.

Общие сведения о текстовой информации

На текущий момент времени большая часть всей информации, находящейся в сети Интернет, представлена в виде текста на различных национальных языках. Персональные компьютеры еще со времен 60-х годов научились правильно распознавать, обрабатывать, хранить и передавать текстовую информацию. Сложно себе представить современный и актуальный вебсайт, который не содержит ни одного символа. Ежедневно глобальная паутина пополняется десятками миллионов текстовых публикаций различного объема. Все поисковые системы в основном «заточены» на релевантный поиск веб-страниц в соответствии с текстовым запросом пользователей.

Не стоит забывать о том, что процессор любого компьютера, любой марки, любого бренда способен обрабатывать информацию, выраженную комбинацией только из 0 и 1. Следовательно, текстовая информация также должна быть преобразована в двоичный набор кодов. Значит, существует некий алгоритм, позволяющий кодировать текстовую информацию в вид, понятный процессору компьютера.

Свойства текстовой информации

Давайте выделим ключевые свойства, которыми должны обладать текстовые материалы:

  • Ценность

  • Новизна

  • Полезность

  • Адекватность

  • Истинность

Что можно понимать под ценностью текстовой информации? Ценность информации – пожалуй, одно из основных свойств любой информации. Если информация для пользователя не является ценной, аксиологически значимой, то она для него не является информативной. Разные читали по-разному воспринимают ценность информации. Для одного – новая, самая свежая информация, для другого – полная, детально разобранная информация о каком-либо объекте или событии. Лично для меня ценна та текстовая информация, которая написана понятным мне языком и глубоко освещает проблематику, на которую она ориентирована. Думаю, что всем знаком такой ресурс, как Википедия. На мой взгляд, авторы данного популярнейшего ресурса очень структурированно и полно описывают события в текстовых публикациях.

Что можно понимать под новизной информации? Думаю, здесь всем понятно, что означает данное свойство из самого названия. Любой текстовый материал должен содержать в своем контексте какую-то новизну, описание проблемы, которую раньше никто еще пристально не рассматривал. Как правило, новая текстовая информация является актуальной, но далеко не факт, что она является полной или достоверной, истинной.

Что можно понимать под полезностью информации? Свойство полезности и ценности очень сильно коррелируют между собой. Как правило ценная текстовая информация одновременно является и полезной. Для меня полезной является та информация, которая помогает решить спонтанно возникшую у меня проблему. Данная информация может быть неновой, неполной, недостоверной и даже неактуальной. Например, если вам требуется написать реферат на тему «Что такое текстовая информация?», и вы, прочитав данный материал, какие-то мысли позаимствовали отсюда, это означает, что данная статья для вас является полезной. Хотя с другой стороны, это информация не новая и давно хорошо изученная различными экспертами.

Что можно понимать под адекватностью информацию? Под адекватностью следует понимать то, насколько текстовое описание объекта или события соответствует в реальности описываемому объекту или событию. Если, например, в какой-либо статье говорится про задачи по программированию, а в решении приводятся стереометрические математические построения, то данная информация не является адекватной, так как упражнения по программированию в первую очередь связаны с написание программного кода. Информация в такой статье не будет являться адекватной.

Что можно понимать под истинностью информации? Под истинностью текстовой информации следует понимать то, насколько описываемые характеристики какого-либо объекта соответствуют его реальным характеристикам. Например, если мы будем утверждать следующее: для того, чтобы получить на экзамене ГИА или ЕГЭ по информатике 100 баллов, нам не нужно уметь программировать. Данная информация не является истинной. И не умея программировать, не удастся решить все упражнения на экзамене. С другой стороны, нельзя эту информацию считать неадекватной, но, не зная ни одного языка программирования, какое-то количество баллов все-таки можно получить. Или еще пример, если мы скажем, что текущий президент Российской Федерации Борис Николаевич Ельцин, это тоже ложная информация. Да, он был когда-то президентом, но в данный момент таковым не является. Это уже неактуальная информация, она устарела.

В данном примере наш тезис про президента является:

  • Не ценным, так как информация устаревшая и недостоверная.

  • Новым для нас, так как раньше нам об этом никто не писал.

  • Не полезным, так как никакого профита мы не получили, прочитав данное утверждение.

  • Адекватным, так как Ельцин Б.Н. когда-то был президентом.

  • Ложным, так как в настоящий момент времени президентом РФ является другой человек.

Что такое кодировочная таблица

Для кодирования текстовой информации в двоичные коды, понятные процессору персонального компьютера, необходимо прибегать к специальным кодировочным таблицам. Давайте представим, что мы напечатали какое-то предложение в текстовом редакторе, например, «Подготовка к ГИА и ЕГЭ» и решили сохранить документ на жесткий диск нашего ПК. Информация любого формата перед тем, как записаться на жесткий диск проходит этап кодирования. В результате наше предложение «Подготовка к ГИА и ЕГЭ» после кодирования преобразуется в двоичный набор, состоящий из цепочек 0 и 1. Но каков алгоритм этого кодирования? Все очень просто!

Существует специальная таблица, в которой представлены абсолютно все символы компьютерного алфавита, и каждому такому символу соответствует некий, строго заданный двоичный код. Для разных типов электронно-вычислительных машин применяются различные кодировки.

Самой распространенной кодировочной таблицей в начале 2000-го года являлась таблица кодировки ASCII. ASCII – American Standard Code for Information Interchange, или американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов. Первая половина этой таблицы (это 128 двоичных кодов) является стандартной, так как в нее входит буквы латинского алфавита, цифры, знаки препинания, скобки, а также так называемые непечатаемые символы. Вторая половина (это 128 двоичных кодов), как правило, содержит символы национального алфавита.

Кстати, в настоящее время существует пять различных кодировочных таблиц для русских букв:

  • КОИ-8

  • CP1251

  • CP866

  • ISO

  • Mac

С одной стороны, кажется, что удобно иметь столько вариантов кодирования текстовой информации, записанной на русском языке, а с другой – имеется большая проблема с совместимостью и соответствию двоичных кодов в разных кодировочных таблицах.

Ассоциация символа и кода символа

Давайте более детально поговорим об анатомии кодировочных таблиц и непосредственно о самом алгоритме кодирования текстовой информации. В качестве примера возьмем на рассмотрение кодировочную таблицу ASCII. Как мы раньше поняли, первая половина этой таблицы является строго стандартной и не содержит кодов ни одного русского символа. Рассмотрим вторую половину таблицы ASCII. Сразу хочу заметить, что двоичных кодов для букв ‘ё’ и ‘Ё’ в таблице нет.

Вернемся к исследованию предложения «Подготовка к ГИА и ЕГЭ». Как видно, данное предложение содержит достаточно много различных букв из русского алфавита, а также имеются повторяющиеся буквы, например, буквы ‘о’, ‘а’, ‘к’, ‘Г’ и др. Сразу небольшая оговорка: одна и та же малая и большая буквы имеют различный двоичный код в таблице ASCII, то есть буквы ‘а’ и ‘А’ будут кодироваться различным набором из 0 и 1.

Для простоты можете представить себе таблицу ASCII как таблицу, состоящую из двух колонок: в первой колонке указывается физический символ, а во второй колонке указывается двоичный код, соответствующий символу из первой колонки. Я лишь приведу небольшой фрагмент второй половины таблицы ASCII:

Символ русского алфавита

Двоичный код символа

‘А’

11000000

‘Б’

11000001

‘В’

11000010

‘Г’

11000011

‘Я’

11011111

‘а’

11100000

‘я’

11111111

Когда процессор ПК встречает в тексте символ ‘В’, он его заменяет на двоичный восьмиразрядный код 11000010, а если букву ‘а’, то на 111000.

Сходу возникает вопрос: а почему отводится восемь позиций на двоичный код символа при кодировании текстовой информации? Потому что для хранения одного символа будет задействован 1 байт информации или 8 бит. Таким образом устроена кодировочная таблица ASCII. Отсюда вытекает умозаключение, что максимальное количество закодированных символов в таблице ASCII не может превышать 256, так как 28 = 256. Существует кодировочная таблица, называемая Unicode, вот она при кодировании текстовой информации преобразует символы в шестнадцатипозиционный двоичный код. Это связано с тем, что для хранения одного символа задействуется 2 байта памяти или 16 бит информации. Следовательно, таблица Unicode может кодировать до 216 = 65536 различных символов.

Еще одной важной характеристикой кодировочных таблиц является то, что символы в ней упорядочены в соответствии с национальным алфавитом. В русском алфавите за буквой ‘а’, следует буква ‘б’, затем буква ‘в’ и так далее. Также можно заметить, что в строках кодировочных таблиц сначала следуют заглавные буквы национального алфавита, а затем строчные, а, следовательно, и соответствующие двоичные коды заглавных букв будут меньше соответствующих кодов строчных букв.

Давайте произведем кодирование текстовой информации, а конкретно предложения «Подготовка к ГИА и ЕГЭ». Для этого построим таблицу, в которой каждому символу русского алфавита сопоставим двоичный код из кодировочной таблицы ASCII. Разделители между словами, то есть знаки пробела, также закодируем.

П

о

д

г

о

т

о

в

к

а

11001111

11101110

11100100

11100011

11101110

11110010

11101110

11100010

11101010

11100000

 

 

к

 

Г

И

А

 

и

 

Е

Г

Э

00100000

11101010

00100000

11000011

11001000

11000000

00100000

11101000

00100000

11000101

11000011

11011101

То есть перед тем, как записать текстовое предложение «Подготовка к ГИА и ЕГЭ» на жесткий диск, компьютер произведет кодирование текстовой информации и получит следующий бинарный код:

11001111111011101110010011100011111011101111001011101110111000101110101011100000001000001110101000100000110000111100100011000000001000001110100000100000110001011100001111011101

А вот подобные цепочки, наборы из 0 и 1 прекрасно распознаются процессором и он максимально оперативно произведет всю необходимую обработку над ними.

Если у вас остались какие-либо вопросы, связанные с кодирование текстовой информации, то записывайтесь ко мне на индивидуальный урок. На моих уроках мы с вами еще более детально погрузимся в область кодирования текстовой информации и рассмотрим внушительное количество ценных, полезных и актуальных примеров.

Кодирование текстовой информации — Практическая работа

[pic 1]

7 класс

Компьютерный практикум для учащихся к разделу:

1.3. Кодирование текстовой информации

Задание 1.

Для выполнения заданий использовать текстовые редакторы MS Word и Блокнот.

Необходимо определить код символа и найти символ по коду при помощи вставки специальных символов (Вставка →Символы).

Решение: Выбирая необходимый символ, мы можем увидеть  его числовой код в нижнем правом углу окна. Все символы в таблице упорядочены по возрастанию числовых кодов, поэтому можно найти символ с заданным вам числовым кодом.

Результат:

«WORD»

200 205 212 206 208 204 192 210 200 202 192- «ИНФОРМАТИКА» в «Windows»

Определение числового кода символа с помощью текстового редактора Word.

  1. Запустить текстовый редактор Word командой [Программы/Microsoft Word]
  2. Ввести команду [вставка/символ]. На экране появится диалоговая панель Символ. Для определения числового кода символа в кодировке Windows с помощью раскрывающегося списка из: выбрать тип кодировки кириллица (дес.).
  3. В таблице символов выбрать символ (например, прописную букву «А»). В текстовом поле Код знака: появится десятичный числовой код символа (в данном случае 192).
  4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод(шестн.)
  5. В таблице символов выбрать символ (например, прописную букву «А»). В текстовом поле Код знака: появится шестнадцатеричный числовой код символа (в данном случае 0410).

В «Блокнот» набрать: «абвгдежий рстуфхцчшщ — Я хочу учиться»

Ввод символа с помощью числовых кодов в текстовом редакторе Блокнот

  1. Запустить стандартное приложение Блокнот командой [Программы/ Стандартные/ Блокнот]
  2. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 0224, отпустить клавишу {Alt}, в документе появится символ «а». Повторить процедуру для числовых кодов от 0225 до 0233, в документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows.
  3. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 224, в документе появится символ «р». Повторить процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS-DOS

СР1251 — наиболее распространенной в настоящее время является кодировка Microsoft Windows, («CP» означает «Code Page», «кодовая страница»).

Кодировка CP1251

[pic 2]

1) #160 неразрывный пробел,

2)  #173 мягкий перенос.

·  СР866 — кодировка под MS DOS

Практическая работа для 9 класса по теме: «Кодирование текстовой информации»

Практическая работа 2.1

Кодирование текстовой информации

Аппаратное и программное обеспечение. Компьютер с установленной операционной системой Windows, пакет приложений Microsoft Office 2013, программный калькулятор NumLock Calculator, текстовый редактор Hieroglyph.

Цель работы. Научиться определять числовые коды символов и осуществлять перекодировку русскоязычного текста в текстовом редакторе.

Задание 1. В текстовом редакторе определить числовые (шестнадцатеричные) коды нескольких символов в кодировке Unicode (Юникод).

Задание 2. В текстовом редакторе Hieroglyph представить слово «Кодировка» в пяти различных кодировках: Windows, MSDOS, КОИ-8, Mac, ISO.

Определение числового кода символа с помощью текстового редактора Microsoft Word 2013

  1. Запустить текстовый редактор Microsoft Word 2013 командой [Пуск – Все программы – Microsoft Office 2013 – Microsoft Word 2013].

  2. В текстовом редакторе выполнить команду [Вставка – Символ – Другие символы…]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.

  1. Для определения числового кода знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.

  2. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.).

  3. В таблице символов выбрать символ (например, заглавную букву Ё). В текстовом поле Код знака: появится его шестнадцатеричный числовой код (в данном случае – 0401).

  4. Осуществить перевод числового кода символа из шестнадцатеричной системы счисления в десятичную с помощью программного калькулятора NumLock Calculator.

Учебник

Перекодирование русскоязычного текста в текстовом редакторе Hieroglyph

  1. Запустить текстовый редактор Hieroglyph командой [Пуск – Все программы — Hieroglyph].

  2. В рабочую область окна текстового редактора ввести текст: «Кодировка Windows» и скопировать его четыре раза (каждый раз на новую строку).

  3. Последовательно выделяя строки с текстом и, нажимая кнопку Автоматический поиск правильной кодировки , в раскрывающемся списке выбирать для каждой строки конечную кодировку, щелкая по кнопке Применить.

  1. В результате получим пять строк символов в различных кодировках, соответствующих одной и той же последовательности числовых кодов.

  2. Сохраните работу в собственной папке под именем Code.

Практическая работа 3.1. Задание 1. Перевод чисел из шестнадцатеричной системы счисления в десятичную с помощью программного калькулятора NumLock Calculator.

Кодирование текстовой информации – УчМет

Приветствие, постановка целей и задач урока, психологический настрой

— Добрый день, ребята! На столах у вас по три смайлика, выберите тот, который соответствует вашему настроению.

— Как много улыбок засветилось. Спасибо!

— А это моё настроение… Я готова продуктивно сотрудничать с вами. Удачи!

Выбирают смайлик и демонстрируют своё настроение.

Самоопределение, смыслообразование (Л)

Целеполагание (П)

Планирование учебного сотрудничества (К)

Информация всегда хранится и передается в закодированном виде. При разговоре информация кодируется с помощью звуков, комбинации из которых образуют слова, а также с помощью жестов, мимики. При записи слова могут быть закодированы с помощью букв, числа с помощью цифр и т.д.

Человек обладает множеством каналов, по которым в его мозг (память) поступает информация. Эти каналы — наши органы чувств, их пять: зрение, слух, вкус, обоняние, осязание.

С точки зрения компьютера текст — это любая последовательность символов из компьютерного алфавита. Совсем не обязательно, чтобы это был текст на одном из естественных языков (русском, английском и др.). Это могут быть математические или химические формулы, номера телефонов, числовые таблицы. Самое главное, чтобы все используемые символы входили бы в компьютерный алфавит.

Историческая справка (слайд 3)

Вспомниют схему передачи информации

Вспоминают, как представляется в компьютере текстовая информация

(слайд 2)

Анализ объектов с целью выделения признаков; подведение под понятие; целеполагание (П)

Выполнение пробного учебного действия; фиксирование индивидуального затруднения; саморегуляция в ситуации затруднения (Р)

Выражение своих мыслей; аргументация своего мнения; учёт разных мнений (К)

Кодирование текстовой информации – преобразование входной информации в форму, воспринимаемую компьютером, т.е. данные (двоичный код).

Декодирование текстовой информации – преобразование данных из двоичного кода в форму, понятную человеку. (слайд 4)

Для представления информации в компьютере используется алфавит мощностью 256 символов.

Чему равен информационный вес одного символа такого алфавита?

Вспомним формулу, связывающую информационный вес символа алфавита и мощность алфавита: 2i = N.

Если мощность алфавита равна 256, то i = 8, и, следовательно, один символ несет 8 бит информации.

Всякая информация представляется в памяти компьютера в двоичном виде, а это значит, что каждый символ представляется 8-разрядным двоичным кодом.

8 бит = 1 байту, поэтому двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти. (слайд 5)

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления. (слайд 6, 7)

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки. Международным стандартом для ПК стала таблица ASCII (читается АСКИ — американский стандартный код для информационного обмена). (слайд 8, 9)

Знакомимся с другими таблицами кодировки: кодировка русского алфавита, таблица кодировки Unicode, таблицы кодировки русскоязычных символов (слайд 10, 11, 12, 13).

Кодирования символов в различных таблицах (слайд 14)

Задание. Декодировать текст с помощью кодовой таблицы ASCII 111 109 112 117 116 101 114 (слайд 15)

Задание. Работа в текстовом редакторе MS Word (слайд 16)

Обучающимся раздаются соответствующие кодовые таблицы, декодируют текст и получают computer.

Обучающиеся выполняют задание на компьютере в MS Word.

Поиск и выделение информации; синтез как составление целого из частей; подведение под понятие; выдвижение гипотез и их обоснование; самостоятельное создание способа решения проблемы поискового характера (П)

Аргументация своего мнения и позиции в коммуникации; учёт разных мнений (К)

Практическое задание.

Закодировать предложения с помощью таблицы ASCII:

  1. Дорогу осилит идущий, а информатику — мыслящий.

  2. Образование не достигает точки насыщения.

Декодировать:

221 194 204

Выполняют задание

Проверяют и оценивают

Выполняют задание

Проверяют и оценивают

(ответ: ЭВМ)

Анализ объектов с целью выделения признаков и синтез как составления целого из частей; подведение под понятие; выдвижение гипотез и их обоснование (П)

Выражение своих мыслей с полнотой и точностью; формулирование и аргументация своего мнения; учёт разных мнений (К)

Оценивание усваемого содержания (Л)

Контроль, коррекция, оценка (Р)

— Исследование какой темы вели на уроке?

— Какие понятия разобрали?

— Удалось решить поставленную задачу?

— Каким способом?

— Какие получили результаты?

— Что нужно сделать ещё?

— Где можно применить новые знания?

— Оцените свою работу на уроке. Работу класса

— Выберите смайлик своего настроения. Изменилось ли оно? Почему?

Дома произвести кодирование стихотворения из 4-х строк (до 100 символов), п. 3.1.

Дают ответы на вопросы

Анализируют работу на уроке через самооценку

Записывают домашнее задание

Рефлексия способов и условий действия; контроль и оценка процесса и результатов деятельности (П)

Самооценка; адекватное понимания причин успеха или неуспеха в УД; следование в поведении моральным нормам и этическим требованиям (Л)

Выражение своих мыслей полно и точно; формулирование и аргументация своего мнения, учёт разных мнений (К)

Двоичное кодирование текстовой информации

Главная › Новости

Опубликовано: 02.09.2018

Кодирование текстовой информации Решение задач

Двоичное кодирование текстовой информации

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации и в настоящее время большая часть персональных компьютеров в мире (и наибольшее время) занято обработкой именно текстовой информации.


Кодирование текстовой информации

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.

Для кодирования одного символа требуется 1 байт информации.

Если рассматривать символы как возможные события, то по формуле (2.1) можно вычислить, какое количество различных символов можно закодировать:


Кодирование информации. Двоичное кодирование. Единицы измерения информации

N = 2I = 28 = 256.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение.

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO — табл. 1.3), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (начиная с 1997 года).

Каждая кодировка задается своей собственной кодовой таблицей. Как видно из табл. 1.3, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Определение числового кода символа

1. Запустить текстовый редактор MS Word 2002. Ввести команду [Вставка-Символ…]. На экране появится диалоговая панель Символ . Центральную часть диалогового окна занимает таблица символов для определенного шрифта (например, Times New Roman).

Символы располагаются последовательно слева направо и построчно, начиная с символа Пробел в левом верхнем углу и кончая буквой «я» в правом нижнем углу таблицы.

Выбрать символ и в раскрывающемся списке из: тип кодировки. В текстовом поле Код знака: появится его числовой код.

Ввод символов по числовому коду

1. Запустить стандартную программу Блокнот . С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 0224, отпустить клавишу {Alt}. В документе появится символ «а». Повторить процедуру для числовых кодов от 0225 до 0233. В документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows (CP1251).

2. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 224, в документе появится символ «р». Повторить процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS-DOS (CP866).

Практические задания

1.29. Используя таблицу символов (MS Word), записать последовательность десятичных числовых кодов в кодировке Windows (СР1251) для слова «компьютер».

1.30. Используя Блокнот, определить, какое слово в кодировке Windows (СР1251) задано последовательностью числовых кодов: 225, 224, 233,242.

1.31. Какие последовательности букв будут в кодировках КОИ8 и ISO соответствовать слову «ЭВМ», записанному в кодировке СР1251?

Введение в кодирование текста | Центр цифровых исследований в гуманитарных науках

Кодирование текста — это процесс, при котором документы переводятся в электронный формат с возможностью поиска для научных исследований.

CDRH подготавливает материалы для электронного доступа путем кодирования текста. Задействованы четыре основных шага:

  1. перенос выбранных материалов в компьютерный текстовый редактор
  2. кодирование или разметка документа с помощью тегов и элементов разметки
  3. подтверждение или проверка правильности документа
  4. представление документа пользователю через Интернет или какой-либо другой интерфейс
Примеры проектов кодирования текста включают:

Архив Уолта Уитмена

Что такое тег?

После того, как материал перенесен в текстовый редактор компьютера, текст кодируется путем размещения тегов вокруг частей текста.Эти теги определяют характеристики материала и определяют, как он будет отображаться и функционировать в Интернете. Теги могут указывать, где расположен заголовок, что отрывок выделен курсивом, что слово написано с ошибкой, где размещена таблица или изображение, где расположены ссылки и т. д.

Существует три вида тегов:

  1. открытие или начало тегов: </li> <li> закрывающие или конечные теги:
  2. пустых тегов:

Что такое элемент?

Элемент относится к разделу текста, связанному парой открывающего и закрывающего тегов.Теги идентифицируют элемент и отделяют разные элементы друг от друга. Следующие примеры взяты из Электронного текстового центра:

Пример:

Листья травы

Элементы также могут появляться внутри элементов. Это известно как гнездование.

Пример:

Листья травы <subtitle>текстовый вариант печатных стихов </subtitle>

Если элементы не вложены должным образом, текст не будет правильно работать в Интернете.

Что такое атрибут?

Атрибут изменяет или дополнительно описывает элемент и появляется только в начальном теге.

Пример:

rend=»italic» </strong> >Листья травы

Атрибут rend=»italic» означает, что заголовок должен отображаться курсивом: Листья травы

Кодирование и декодирование – Коммуникация для бизнес-профессионалов

Проще говоря, люди общаются посредством процесса кодирования и декодирования .Кодировщик — это человек, который разрабатывает и отправляет сообщение. Как показано на рисунке 1.1 ниже, кодировщик должен определить, как сообщение будет воспринято аудиторией, и внести коррективы, чтобы сообщение было получено так, как они хотят.

Кодирование — это процесс превращения мыслей в сообщение. Кодер использует «средство» для отправки сообщения — телефонный звонок, электронную почту, текстовое сообщение, личную встречу или другой инструмент коммуникации. Уровень сознательного мышления, который идет на кодирование сообщений, может быть разным.Кодер также должен учитывать любой «шум», который может помешать его сообщению, например, другие сообщения, отвлекающие факторы или влияния.

Затем аудитория «декодирует» или интерпретирует сообщение для себя. Декодирование — это процесс превращения сообщения в мысли. Например, вы можете понять, что голодны, и закодировать следующее сообщение, чтобы отправить его соседу по комнате: «Я голоден. Хочешь съесть сегодня пиццу?» Когда ваш сосед по комнате получает сообщение, он расшифровывает ваше сообщение и превращает его обратно в мысли, чтобы придать смысл.

Рисунок 1.1 . Процесс общения. Кодирование, мультимедиа и декодирование (Hawkins, 2016).

Конечно, вы общаетесь не только устно — у вас есть различные варианты или каналы для общения. Закодированные сообщения отправляются через канал или сенсорный маршрут, по которому сообщение отправляется к получателю для декодирования. В то время как общение может быть отправлено и получено с использованием любого сенсорного пути (зрение, обоняние, осязание, вкус или звук), большая часть общения происходит через визуальные (зрение) и/или слуховые (звуковые) каналы.Если ваш сосед по комнате в наушниках и увлечен видеоигрой, вам может понадобиться привлечь его внимание, помахав рукой, прежде чем вы сможете спросить его об ужине.

Модель передачи коммуникации описывает коммуникацию как линейный односторонний процесс, в котором отправитель намеренно передает сообщение получателю (Ellis & McClintock, 1990). Эта модель фокусируется на отправителе и сообщении в рамках коммуникативной встречи. Хотя получатель включен в модель, эта роль рассматривается скорее как цель или конечная точка, а не как часть текущего процесса.Вам остается предположить, что получатель либо успешно принимает и понимает сообщение, либо нет. Подумайте о том, как человек в радиостудии передает вам радиосообщение, которое вы слушаете в своей машине. Отправитель — это диктор, который кодирует устное сообщение, которое передается радиовышкой через электромагнитные волны (канал) и в конечном итоге достигает ваших ушей (получателя) через антенну и динамики для декодирования. Диктор на самом деле не знает, получили вы его сообщение или нет, но если аппаратура работает и на канале нет помех, то есть большая вероятность, что сообщение было успешно получено.

Модель взаимодействия коммуникации описывает коммуникацию как процесс, в котором участники чередуют позиции отправителя и получателя и генерируют смысл, отправляя сообщения и получая обратную связь в физическом и психологическом контекстах (Schramm, 1997). Вместо того, чтобы иллюстрировать коммуникацию как линейный односторонний процесс, модель взаимодействия включает обратную связь, которая делает коммуникацию более интерактивным, двусторонним процессом. Обратная связь включает сообщения, отправленные в ответ на другие сообщения.Например, ваш инструктор может ответить на вопрос, который вы подняли во время обсуждения в классе, или вы можете указать на диван, когда ваш сосед по комнате спросит вас, где пульт дистанционного управления. Включение цикла обратной связи также приводит к более сложному пониманию ролей участников коммуникативной встречи. Вместо того, чтобы иметь одного отправителя, одно сообщение и одного получателя, в этой модели есть два отправителя-получателя, которые обмениваются сообщениями. Каждый участник чередует роли отправителя и получателя, чтобы общение продолжалось.Хотя это кажется ощутимым и преднамеренным процессом, вы переключаетесь между ролями отправителя и получателя очень быстро и часто неосознанно.

Модель транзакций коммуникации описывает коммуникацию как процесс, в котором коммуникаторы создают социальные реальности в социальном, реляционном и культурном контекстах. В этой модели вы не просто общаетесь для обмена сообщениями; вы общаетесь, чтобы создавать отношения, формировать межкультурные союзы, формировать свою самооценку и вступать с другими в диалог для создания сообществ.Короче говоря, вы не рассказываете о своих реалиях; общение помогает строить свои реальности (и реальности других).

Роли отправителя и получателя в транзакционной модели связи значительно отличаются от других моделей. Вместо того, чтобы обозначать участников как отправителей и получателей, люди, участвующие в коммуникативной встрече, называются коммуникаторами. В отличие от модели взаимодействия, которая предполагает, что участники чередуются позициями отправителя и получателя, модель транзакции предполагает, что вы одновременно являетесь отправителем и получателем.Например, при встрече с новым другом вы отправляете вербальные сообщения о своих интересах и прошлом, а ваш спутник реагирует невербально. Вы не ждете, пока закончите отправлять вербальное сообщение, чтобы начать получать и расшифровывать невербальные сообщения вашего нового друга. Вместо этого вы одновременно отправляете свое вербальное сообщение и получаете невербальные сообщения вашего друга. Это важное дополнение к модели, потому что оно позволяет вам понять, как вы можете адаптировать свое общение — например, адаптируя устное сообщение — в середине его отправки на основе сообщения, которое вы одновременно получаете от своего партнера по общению.

Кодирование – Общая психология

Память – это система обработки информации; поэтому мы часто сравниваем его с компьютером. Память — это набор процессов, используемых для кодирования, хранения и извлечения информации в течение различных периодов времени.

Мы получаем информацию в наш мозг посредством процесса, называемого кодированием , который является вводом информации в систему памяти. Как только мы получаем сенсорную информацию из окружающей среды, наш мозг маркирует или кодирует ее.Мы организуем информацию с другой подобной информацией и связываем новые понятия с существующими понятиями. Кодирование информации происходит посредством автоматической обработки и обработки, требующей усилий. Если кто-то спросит вас, что вы ели сегодня на обед, скорее всего, вы легко вспомните эту информацию. Это известно как автоматическая обработка или кодирование деталей, таких как время, пространство, частота и значение слов. Автоматическая обработка обычно выполняется без какого-либо сознательного осознания.Вспомнить, когда вы в последний раз готовились к тесту, — еще один пример автоматической обработки. Но как насчет фактического тестового материала, который вы изучали? Вероятно, вам потребовалось много работы и внимания, чтобы закодировать эту информацию. Это известно как усиленная обработка (рис. 2). Рисунок 2 . Когда вы впервые осваиваете новые навыки, такие как вождение автомобиля, вам приходится прилагать усилия и внимание, чтобы кодировать информацию о том, как завести машину, как тормозить, как вести себя в повороте и так далее.Как только вы научитесь водить машину, вы сможете автоматически кодировать дополнительную информацию об этом навыке. (кредит: Роберт Коуз-Бейкер)

Каковы наиболее эффективные способы гарантировать, что важные воспоминания будут хорошо закодированы? Даже простое предложение легче вспомнить, когда оно осмысленно (Андерсон, 1984). Прочитайте следующие предложения (Bransford & McCarrell, 1974), затем отведите взгляд и сосчитайте в обратном порядке от 30 по три до нуля, а затем попытайтесь записать предложения (не заглядывая назад на эту страницу!).

  1. Записки были кислыми, потому что швы разошлись.
  2. Путешествие задержалось не потому, что бутылка разбилась.
  3. Стог сена был важен, потому что ткань порвалась.

Насколько хорошо вы справились? Сами по себе утверждения, которые вы записали, скорее всего, сбивали вас с толку и вам было трудно их вспомнить. Теперь попробуйте написать их снова, используя следующие подсказки: волынка, крещение корабля (разбить бутылку о нос корабля — символ удачи) и парашютист.Затем сосчитайте в обратном порядке от 40 до четырех, а затем проверьте себя, насколько хорошо вы запомнили предложения на этот раз. Вы можете видеть, что предложения теперь намного лучше запоминаются, потому что каждое из предложений было помещено в контекст. Материал намного лучше кодируется, когда вы делаете его осмысленным.

Существует три типа кодирования. Кодирование слов и их значения известно как семантическое кодирование . Впервые это было продемонстрировано Уильямом Боусфилдом (1935) в эксперименте, в котором он просил людей запоминать слова.60 слов были фактически разделены на 4 категории значения, хотя участники не знали об этом, потому что слова были представлены случайным образом. Когда их просили запомнить слова, они, как правило, вспоминали их по категориям, показывая, что обращали внимание на значения слов по мере их заучивания.

Визуальное кодирование — это кодирование изображений, а акустическое кодирование — это кодирование звуков, в частности слов. Чтобы увидеть, как работает визуальное кодирование, прочитайте этот список слов: машина, уровень, собака, правда, книга, значение .Если бы вас позже попросили вспомнить слова из этого списка, как вы думаете, какие из них вы, скорее всего, запомнили бы? Вероятно, вам будет легче вспоминать слова машина, собака, и книга , и труднее вспоминать слова уровень, правда, и значение . Почему это? Потому что вы можете вспоминать образы (ментальные картинки) легче, чем одни только слова. Когда вы читаете слова машина, собака и книга , вы создаете образы этих вещей в своем уме.Это конкретные, образные слова. С другой стороны, абстрактные слова, такие как уровень , правда, и значение , являются словами с низким содержанием образов. Образные слова кодируются как визуально, так и семантически (Paivio, 1986), что укрепляет память.

Теперь обратимся к акустическому кодированию. Вы едете в своей машине и по радио звучит песня, которую вы не слышали как минимум 10 лет, но вы подпеваете, вспоминая каждое слово. В Соединенных Штатах дети часто изучают алфавит с помощью песен и узнают количество дней в каждом месяце с помощью стишков: « Тридцать дней в сентябре / апреле, июне и ноябре; / У всех остальных тридцать один, / За исключением февраля, с двадцатью восемью ясными днями, / И двадцать девять в каждом високосном году.Эти уроки легко запомнить благодаря акустическому кодированию. Мы кодируем звуки, которые издают слова. Это одна из причин, почему многое из того, чему мы учим маленьких детей, делается с помощью песен, рифм и ритма.

Как вы думаете, какой из трех типов кодирования лучше всего запоминает словесную информацию? Несколько лет назад психологи Фергус Крейк и Эндел Талвинг (1975) провели серию экспериментов, чтобы выяснить это. Участникам были даны слова вместе с вопросами о них.Вопросы требовали от участников обработки слов на одном из трех уровней. Вопросы визуальной обработки включали такие вещи, как вопросы о шрифте букв. Вопросы акустической обработки спрашивали участников о звучании или рифмовке слов, а вопросы семантической обработки спрашивали участников о значении слов. После того, как участникам были представлены слова и вопросы, им было предложено неожиданное задание на припоминание или распознавание.

Слова, закодированные семантически, запоминались лучше, чем слова, закодированные визуально или акустически. Семантическое кодирование предполагает более глубокий уровень обработки, чем более поверхностное визуальное или акустическое кодирование. Крейк и Талвинг пришли к выводу, что лучше всего мы обрабатываем вербальную информацию с помощью семантического кодирования, особенно если мы применяем так называемый эффект самореференции. Эффект самореференции — это склонность человека лучше запоминать информацию, относящуюся к нему самому, по сравнению с материалом, имеющим меньшее личное значение (Rogers, Kuiper & Kirker, 1977).Может ли семантическое кодирование быть полезным для вас, когда вы пытаетесь запомнить концепции этого модуля?

Перекодирование

Процесс кодирования избирательный, и в сложных ситуациях замечаются и кодируются относительно немногие из многих возможных деталей. Процесс кодирования всегда включает в себя перекодирование , то есть извлечение информации из той формы, в которой она была доставлена ​​нам, а затем преобразование ее таким образом, чтобы мы могли ее понять. Например, вы можете попытаться запомнить цвета радуги, используя аббревиатуру ROY G BIV (красный, оранжевый, желтый, зеленый, синий, индиго, фиолетовый).Процесс перекодирования цветов в название может помочь нам запомнить. Однако перекодирование также может привести к ошибкам — когда мы случайно добавляем информацию во время кодирования, помните, что новый материал, как если бы он был частью реального опыта (как обсуждается ниже).

Рисунок 3 . Хотя это требует больше усилий, использование изображений и ассоциаций может улучшить процесс перекодирования. [Изображение: Лео Рейнольдс]

Психологи изучили множество стратегий перекодирования, которые можно использовать во время учебы для улучшения запоминания.Во-первых, исследования советуют во время обучения думать о значении событий (Craik & Lockhart, 1972) и пытаться связать новые события с уже известной нам информацией. Это помогает нам формировать ассоциации, которые мы можем использовать для извлечения информации позже. Во-вторых, воображение событий также делает их более запоминающимися; создание ярких образов из информации (даже вербальной) может значительно улучшить последующее припоминание (Bower & Reitman, 1972). Создание образов является частью техники, которую Саймон Рейнхард использует для запоминания огромного количества цифр, но мы все можем использовать изображения для более эффективного кодирования информации.Основная концепция хороших стратегий кодирования заключается в том, чтобы формировать отличительные воспоминания (те, которые выделяются) и формировать связи или ассоциации между воспоминаниями, чтобы облегчить последующее извлечение (Hunt & McDaniel, 1993). Использование стратегий обучения, таких как описанные здесь, является сложной задачей, но усилия стоят того, чтобы получить преимущества улучшенного обучения и удержания.

Ранее мы подчеркивали, что кодирование избирательно: люди не могут кодировать всю информацию, с которой они сталкиваются. Однако перекодирование может добавить информацию, которую даже не видели и не слышали на начальном этапе кодирования.Некоторые процессы перекодирования, такие как формирование ассоциаций между воспоминаниями, могут происходить без нашего ведома. Это одна из причин, по которой люди иногда могут помнить события, которых на самом деле не было, потому что в процессе записи к ним добавляются детали. Одним из распространенных способов вызвать ложные воспоминания в лаборатории является использование метода списка слов (Deese, 1959; Roediger & McDermott, 1995). Участники слушают списки из 15 слов, таких как дверь, стекло, стекло, тень, карниз, подоконник, дом, открыть, занавес, рама, вид, ветерок, створка, экран, и жалюзи. Позже участникам предлагается тест, в котором им показывают список слов и просят выбрать те, которые они слышали ранее. Этот второй список содержит некоторые слова из первого списка (например, дверь, стекло, рама ) и некоторые слова не из списка (например, рука, телефон, бутылка ). В этом примере одним из слов в тесте является окно , которое, что важно, не появляется в первом списке, но связано с другими словами в этом списке. Когда испытуемые были протестированы, они достаточно точно произносили изучаемые слова (, дверь, и т.), распознавая их в 72% случаев. Однако, когда окно проходило тест, они ошибочно распознавали его как находящееся в списке в 84% случаев (Stadler, Roediger, & McDermott, 1999). То же самое произошло и со многими другими списками, которые использовали авторы. Это явление называется эффектом DRM (от Deese-Roediger-McDermott). Одним из объяснений таких результатов является то, что, когда учащиеся слушали элементы в списке, слова вызывали у них мысли о окне , хотя окно никогда не предъявлялось.Таким образом, кажется, что люди кодируют события, которые на самом деле не являются частью их опыта.

Поскольку люди обладают творческим потенциалом, мы всегда выходим за рамки информации, которую нам дают: мы автоматически создаем ассоциации и делаем на их основе выводы о том, что происходит. Но, как и в случае с путаницей словесных ассоциаций, описанной выше, иногда мы создаем ложные воспоминания из наших выводов — вспоминая сами выводы, как если бы они были реальным опытом. Чтобы проиллюстрировать это, Брюэр (1977) давал людям для запоминания предложения, предназначенные для получения прагматических выводов .Выводы, как правило, относятся к случаям, когда что-то не указано явно, но мы все же можем угадать нераскрытое намерение. Например, если ваша подруга сказала вам, что не хочет идти куда-нибудь поесть, вы можете сделать вывод, что у нее нет денег, чтобы пойти куда-нибудь, или что она слишком устала. С прагматическими выводами обычно есть один конкретный вывод, который вы, вероятно, сделаете. Рассмотрим заявление Брюэр (1977), сделанное ее участникам: «Чемпионка по карате ударилась о шлакоблок.Услышав или увидев это предложение, участники, прошедшие тест на память, как правило, запоминали утверждение как «Чемпион по карате сломал шлакоблок». Это запомненное утверждение не обязательно является логическим выводом (т. е. вполне разумно, что чемпион по карате может ударить шлакоблок, не сломав его). Тем не менее, прагматический вывод из такого предложения заключается в том, что блок, скорее всего, был сломан. Участники запомнили этот вывод, сделанный ими во время прослушивания предложения, вместо фактических слов, которые были в предложении (см. также McDermott & Chan, 2006).

Кодирование — первоначальная регистрация информации — имеет важное значение в процессе обучения и запоминания. Если событие не закодировано каким-либо образом, оно не будет успешно запомнено позже. Однако только потому, что событие закодировано (даже если оно закодировано хорошо), нет никакой гарантии, что его вспомнят позже.

Процессы кодирования и воспроизведение текста

  • Андерсон, Дж., и Хасти, Р. Индивидуация и ссылка в памяти: имена собственные и неопределенные описания. Когнитивная психология , 1974, 6 , 495–514.

    Артикул Google ученый

  • Андерсон, Дж. Р., и Редер, Л. М. Подробное объяснение глубины обработки. В L. Cermak &: F. Craik (Eds.), Уровни обработки в памяти человека . Хиллсдейл, Нью-Джерси: Erlbaum, 1979.

    . Google ученый

  • Баддели, А.D. Проблемы с уровнями: пересмотр концепции Крейка и Локхарта для исследования памяти. Психологический обзор , 1978, 85 , 139–152.

    Артикул Google ученый

  • Брэдшоу, Г. Л., и Андерсон, Дж. Р. Подробное кодирование как объяснение уровней обработки. Журнал вербального обучения и вербального поведения , 1982, 21 , 165–174.

    Артикул Google ученый

  • Кларк, Х.H. Выводы в понимании. В D. LaBerge &: SJ Samuels (Eds.), Основные процессы чтения: восприятие и понимание . Хиллсдейл, Нью-Джерси: Erlbaum, 1977.

    . Google ученый

  • Кларк, Х. Х., и Сенгул, С. Дж. В поисках референтов для существительных и местоимений. Память и познание , 1979, 7 , 35–41.

    Артикул Google ученый

  • Крейк, Ф.И. М., Локхарт, Р. С. Уровни обработки: основа для исследования памяти. Журнал вербального обучения и вербального поведения , 1972, 11 , 671–684.

    Артикул Google ученый

  • Гаррод С. и Сэнфорд А. Интерпретация анафорических отношений: интеграция семантической информации при чтении. Журнал вербального обучения и вербального поведения , 1977, 16 , 77–90.

    Артикул Google ученый

  • Хэвиленд, С. Э., и Кларк, Х. Х. Что нового? Получение новой информации как процесс осмысления. Журнал вербального обучения и вербального поведения , 1974, 13 , 512–521.

    Артикул Google ученый

  • Джейкоби, Л.Л., и Крайк, Ф.И.М. Эффекты проработки обработки при кодировании и поиске: различимость трассировки и восстановление исходного контента.В L. Cermak & F. Craik (Eds.), Уровни обработки в памяти человека . Хиллсдейл, Нью-Джерси: Erlbaum, 1979.

    . Google ученый

  • Джейкоби, Л.Л., Крейк, Ф.И.М., и Бегг, Ю. Влияние трудности принятия решения на распознавание и припоминание. Журнал вербального обучения и вербального поведения , 1979, 18 , 585–600.

    Артикул Google ученый

  • Ярвелла, Р.J. Синтаксическая обработка связной речи. Журнал вербального обучения и вербального поведения , 1971, 10 , 409–416.

    Артикул Google ученый

  • Джонсон-Лэрд, П. Н., и Бетелл-Фокс, CE. Память на вопросы и объем обработки. Память и: Познание , 1978, 6 , 496–501.

    Артикул Google ученый

  • Джонсон-Лэрд, П.Н., Гиббс Г. и Демоубрей Дж. Значение, объем обработки и память для слов. Память и: Познание , 1978, 6 , 372–375.

    Артикул Google ученый

  • Кинч, В., и ван Дейк, Т.В. На пути к модели понимания и производства текста. Психологический обзор , 1978, 85 , 363–394.

    Артикул Google ученый

  • Нельсон, Т.О. Повторы и глубина обработки. Журнал вербального обучения и вербального поведения , 1977, 16 , 151–171.

    Артикул Google ученый

  • Тайлер С.В., Хертель П.Т., МакКаллум М.К. и Эллис Э.К. Когнитивные усилия и память. Журнал экспериментальной психологии: человеческое обучение и память , 1979, 6 , 607–617.

    Артикул Google ученый

  • Винер, Б.Дж. Статистические принципы в планах экспериментов . Нью-Йорк: Макгроу-Хилл, 1971.

    . Google ученый

  • Екович Ф. Р. и Уокер С. Х. Идентификация и использование референтов при понимании предложений. Журнал вербального обучения и вербального поведения , 1978, 17 , 265–277.

    Артикул Google ученый

  • Екович, Ф.Р., Уокер, С. Х., и Блэкман, Х. С. Роль предполагаемой и локальной информации в интеграции предложений. Журнал вербального обучения и вербального поведения , 1979, 18 , 535–548.

    Артикул Google ученый

  • Что такое кодирование? — Определение Techslang

    При переводе показаний температуры из градусов Цельсия в градусы Фаренгейта или денег из японских иен в доллары США исходные значения остаются прежними.Они просто представлены в другой форме.

    В мире компьютеров кодирование работает точно так же. Компьютер преобразует данные из одной формы в другую. Это делается для экономии места для хранения или повышения эффективности передачи.

    Одним из примеров кодирования является преобразование огромного аудиофайла .WAV в крошечный файл .MP3, который можно легко отправить другу по электронной почте. Файлы закодированы в разных форматах, но будут воспроизводить одну и ту же песню.

    Другие интересные термины…

    Подробнее о «Кодировании»

    Что такое Назначение Кодирование ?

    Основная цель кодирования — сделать данные безопасными и пригодными для использования разными пользователями, использующими различные системы.Идея состоит в том, чтобы сделать данные читаемыми и доступными для всех возможных конечных пользователей. Кодирование можно сравнить с эффективным переводом текста, например, с иврита на английский, что делает информацию удобочитаемой для большего числа пользователей.

    Без кодировки символов веб-сайт будет отображать текст совсем не так, как предполагалось. Неправильное кодирование ухудшает читабельность текста, что также может привести к тому, что поисковые системы не смогут правильно отображать данные или что машины будут неправильно обрабатывать вводимые данные.

    Какие существуют типы стандартов кодирования?

    Мы перечислили несколько наиболее распространенных стандартов кодирования, используемых сегодня.

    Американский стандартный код для обмена информацией

    Американский стандартный код для обмена информацией (ASCII) является наиболее часто используемым языком компьютеров для текстовых файлов. Он был разработан Американским национальным институтом стандартов (ANSI). Он представляет буквы алфавита (как строчные, так и прописные), цифры, символы и знаки препинания с использованием семибитных двоичных чисел (строки, состоящие из комбинаций семи нулей или единиц). ASCII имеет 128 символов.

    Кодировка Юникод

    Стандарт Unicode — это универсальный набор символов, который позволяет писать на большинстве языков на компьютерах. Он подразделяется на 8-, 16- и 32-битные наборы символов, насчитывающие более миллиарда символов.

    URL-кодирование

    Кодирование унифицированного указателя ресурсов (URL), также известное как «процентное кодирование», часто используется, когда некоторые символы не могут быть включены в URL-адреса. Таким образом, кодирование URL-адресов позволяет представлять нераспознанные символы ASCII в формате Unicode, чтобы все компьютеры могли их читать.

    Кодировка Base64

    Раньше Base64 использовался только для представления двоичных данных в печатных символах. Он обычно используется в базовой аутентификации по протоколу передачи гипертекста (HTTP) при кодировании учетных данных пользователя. Он также используется для кодирования вложений электронной почты, чтобы обеспечить их передачу по простому протоколу передачи почты (SMTP), и отправки двоичных данных в файлах cookie, чтобы сделать их менее читаемыми для злоумышленников.

    Большинство почтовых систем не могут работать с двоичными данными.Без кодировки Base64 изображения или другие отправленные файлы будут повреждены. Компьютеры работают с данными в байтах, что делает кодировку ASCII непригодной для передачи.


    По мере того, как мы продвигаемся вперед в эпоху цифровых технологий, кодирование стало важной задачей для большинства разработчиков программного обеспечения и веб-сайтов, чтобы гарантировать, что их творения полезны для потребителей.

    Еще от Techslang…

    Кодирование текста – цифровые гуманитарные науки

     

    КОДИРОВАНИЕ ТЕКСТА

     

    После того, как документ был оцифрован и мы получили, например, обычный текстовый файл с транскрипцией исходного текста, нам нужно сделать еще один шаг, чтобы компьютер смог не только прочитать , документ как набор цифровых символов, но и как-то понять его значение.

    В разделе, посвященном LaTeX, мы ввели понятие языка разметки. Представьте себе текстовый файл, который содержит простой текст, а также некоторую дополнительную информацию для компьютера (и других пользователей), чтобы узнать больше об этом тексте. Эта информация, вместо предоставления типичных сведений о «форматированном тексте», таких как относящиеся к стилю текста (цвет, размер шрифта, курсив, полужирный шрифт и т. д.), содержит семантическую информацию.

     

     

    Здесь на сцену выходит Инициатива по кодированию текста (TEI).TEI основан на XML, Extensible Markup Language, который является подмножеством более крупного стандарта для определения языков разметки, называемого SGML (Standard Generalized Markup Language). HTML, язык программирования, используемый для создания веб-страниц, также является одним из производных от SGML (мы поговорим о HTML и о том, как создать веб-сайт, чуть позже).

    XML, как и HTML, имеет формальную структуру и определенный синтаксис, которым должен следовать пользователь. Этот синтаксис основан на концепции элемента .Обычно элемент определяется с помощью <начального тега> и . Некоторые элементы также включают так называемый атрибут . Посмотрите на этот гипотетический пример:

     


         Профессор
         Нортиус Максимус
         Classic

     

    В отличие от HTML, язык XML не имеет предопределенных тегов, поэтому пользователи могут определять свои собственные категории и придавать им определенное значение.Это делается путем создания нового файла определения типа документа (DTD). TEI использовал этот путь для определения сотен различных текстовых компонентов и понятий, полезных для анализа текста (например, слов, абзацев, символов, стихов, дат, географических названий, перекрестных ссылок и т. д.)

    Лучший способ ознакомиться со схемой кодирования TEI — начать с просмотра TEI Lite, уменьшенной версии (подмножества) TEI, которая работает для большинства пользователей в академическом сообществе. TEI — это мощный инструмент, который используется во все большем количестве проектов; здесь у вас есть список примеров, которые вы можете изучить: https://wiki.tei-c.org/index.php/Samples_of_TEI_texts

     

    Некоторые дополнительные идеи…

      • Вы можете создать и отредактировать файл XML/TEI с помощью простого текстового редактора (убедитесь, что вы используете режим «обычный текст»), но есть много других вариантов для бесстрашного пользователя: https://wiki.tei- c.org/index.php/Редакторы

    Роль библиотеки в кодировании текста

    (Эта статья-мнение, основанная на презентации, сделанной автором на конференции «ECAI 2001: На пути к электронному культурному атласу», Сидней, 12-13 июня 2001 г., представляет точку зрения автора.Он не обязательно отражает точку зрения D-Lib Magazine , его издателя, Корпорации национальных исследовательских инициатив или его спонсора.)

     

    Введение

    Появление электронных текстовых центров в библиотеках за последние несколько лет стало значительным событием как для библиотечного, так и для научного сообщества. В то же время электронные тексты стали большим вызовом традиционным ролям в библиотечных, исследовательских и издательских сообществах.Развитие электронных текстовых ресурсов означает работу с документами по-новому и на разных уровнях, часто предполагающую работу над содержанием документа посредством кодирования текста. Это событие бросает вызов предполагаемой позиции библиотеки в исследовательском процессе.

    Более активное участие библиотек в разработке текстов повысит функциональность электронных текстов и улучшит поиск информации. Традиционные библиотечные навыки и инструменты, используемые для каталогизации и индексации, могут быть применены к текстовому кодированию для идентификации географических и личных имен, дат, событий, артефактов и т. д.и обеспечить стандартизированный доступ к этой информации. Библиотеки всегда предоставляли такой вид услуг, но некоторые могут рассматривать применение тех же навыков к кодированию текста как нарушение профессиональных границ.

    1. Изменение роли библиотеки

    Библиотеки всегда имели дело с ценными документами, но при этом сохраняли нейтральную позицию библиотек. Библиотеки предоставляют доступ к информации, созданной другими, но сами они не являются создателями — таково общепринятое понимание, по крайней мере, так было до недавнего времени.С развитием информационных технологий перед библиотеками стали поступать различные новые задачи, некоторые из которых требовали новых способов взаимодействия с документами.

    Новая волна изменений сопровождает инициативы по электронному тексту, позиционируя библиотеку как минимум в трех специализированных областях: компьютерная поддержка, публикации и академические исследования. Несмотря на то, что они размыты, границы между этими полями существуют, и проекты кодирования текста проверяют и устанавливают эти границы, в основном на практике.

    1.1 Библиотеки и компьютерная поддержка

    Электронные тексты нуждаются в значительной технологической поддержке, а различия между задачами библиотекаря и специалиста по компьютерам часто не ясны. Однако библиотекари и компьютерный персонал имеют большой опыт совместной работы с технологиями. Электронные тексты существенно не меняют существующее разделение между двумя профессиональными областями.

    1.2 Библиотеки и издательское дело

    С другой стороны, вопросы, связанные с электронными публикациями, настолько противоречивы, что едва ли существует какой-либо их аспект, который предполагает общее согласие, и определение значения того, что представляет собой электронная публикация, не является исключением.Некоторые авторы различают оцифровку и электронную публикацию (Mercieca 1999), но Национальная библиотека Австралии (NLA) утверждает, что NLA «работает на основе того, что публикуется все, что общедоступно в Интернете» (National Library of Australia 1999, пункт 3.3). В новых условиях традиционная издательская деятельность меняется, и, хотя предстоит еще многое сделать для установления стандартов для электронных публикаций, библиотека может считать своей законной задачей сделать информацию «общедоступной».Что не совсем ясно, так это то, включает ли эта легитимность предоставление всего содержания в дополнение к предоставлению традиционной библиографической информации. Представление всего документа, а не просто его описание, независимо от того, называется оно публикацией или нет, в настоящее время не рассматривается как библиотечная задача.

    С момента изобретения печати библиотекари больше не производят документы путем их копирования. Однако раньше было иначе. Оглядываясь назад в историю, мы видим монаха в монастырской библиотеке, который вручную копирует сценарий, а также украшает его и сопровождает сценарий переводами.(Сходство со старой практикой является причиной того, что многие электронные текстовые проекты называют себя «электронными скрипториями».) Когда монах копирует документ от руки, он не пишет трактат о тексте, а «просто» воспроизводит его. Тем не менее, в процессе он мог бессознательно вставлять некоторые элементы собственной речи. Возможно, он даже решает внести в документ поправку или опускает то, что считает неподходящей частью. Монах не является — и не может быть — объективным, но об объективности не может быть и речи.Благодаря усилиям монаха у нас есть копии ценных рукописей. Некоторые из этих рукописей, содержащих изменения монаха, сами по себе являются значительным вкладом в культуру. Если мы сможем извлечь какие-либо уроки из истории, они могут включать размышления об улучшениях, которые мы хотим внести в документы, вмешательствах, которые мы хотим предотвратить, и ценности копирования текстов.

    1.3 Библиотеки и научные исследования

    Наиболее деликатные вопросы о кодировании текста библиотеками касаются новой роли, которую библиотеки могут играть в академических исследованиях.Кодирование текста имеет прямое отношение к содержимому, что угрожает предполагаемой нейтральности библиотеки в исследовательском процессе. Традиционная роль библиотеки в исследовательском процессе основана на допущении, что библиотеки имеют дело с информацией нейтрально с точки зрения ценности, и часть их нейтральности заключается в том, что библиотекари не обращаются с содержанием документа. Библиотекари предоставляют информацию, но кто-то другой интерпретирует информацию и рассматривает ее ценность в системах значений.

    Существуют также философские и практические вопросы, которые вызывают сопротивление как в библиотеке, так и в академическом сообществе изменению ролей в академических исследованиях и новым технологиям цифровых документов.Одна из этих проблем связана с ограниченными ресурсами библиотек. Тем не менее, благодаря своей способности изменять свое положение, когда это необходимо, библиотеки уже превратились из хранилищ документов в информационные центры. Не могут ли они также развиваться, чтобы играть более важную роль в текстовом кодировании документов?

    Роль любой научной библиотеки включает предоставление доступа к информации и поддержку исследований и обучения. Доступ к информации, исследования и обучение происходят в культурном контексте, включающем библиотеки, а культура никогда не была нейтральной.Предполагается, что библиотеки играют нейтральную роль в академических исследованиях; однако системы классификации и индексации, политика развития и приобретения коллекций, пользовательские услуги и политические решения окрашены культурными ценностями и знаниями. Тот факт, что библиотекари установили процедуры, кодексы и практики, не означает, что их работа стала нейтральной. Точно так же библиотечной профессии может потребоваться разработать способы работы с новыми ролями, основанными на ценностях, а не решать, что эти роли несовместимы с предполагаемой позицией библиотеки как нейтрального поставщика информации.

    2. Вклад библиотеки в электронные текстовые ресурсы

    Почему библиотеки должны участвовать в кодировании текста? Самый краткий ответ заключается в том, что кодирование текста влияет на доступ к информации и ее сохранение, что является традиционными библиотечными задачами. Библиотеки обладают сильными сторонами и навыками для организации информации, доступа и распространения, а также доказанной способностью сотрудничать между дисциплинами.

    2.1 Управление информацией

    Академическое сообщество считает библиотеку самым надежным местом, где электронные тексты могут быть защищены (Ассоциация современного языка, Рекомендации E1 1997).Библиотека заработала хорошую репутацию благодаря работе с информационными технологиями, и пользователи хотят обращаться туда же за новыми разработками. Библиотека уже накопила значительный опыт работы с компьютерами в гуманитарной сфере. МакГанн описывает тесную связь между компьютеризацией в гуманитарных науках и в библиотеках, и говорит, что эта связь возникла по одной «простой и очевидной причине: материальные потребности побудили библиотеки изучать и использовать компьютеризированные инструменты, которые позволяют этим исследовательским центрам получить определенную контроля над огромными объемами данных, которыми они призваны управлять» (МакГанн, 1996, «Возвращение библиотеки», 1-й пар.). Тем не менее, когда дело доходит до электронных текстовых ресурсов, библиотеки еще не предоставили свои фундаментальные навыки и инструменты для управления данными.

    2.2 Служение исследовательскому сообществу

    Часть вклада библиотеки в исследовательское сообщество заключается в предоставлении хороших коллекций и доступа к информации, содержащейся в этих коллекциях. Другой вклад заключается в развитии базы навыков, сначала в библиотеке, а затем в университетском сообществе. Университеты, имеющие хорошо зарекомендовавшие себя электронные текстовые центры, уже накопили значительный опыт в поддержке проектов кодирования исследователей, либо предоставляя инструкции, либо участвуя в этих научных и учебных проектах.

    2.3 Обслуживать одного вместо многих?

    В основе лежит предположение, что электронные ресурсы ценны для исследователей и что библиотеки хотят найти новые и лучшие способы поддержки исследований. Однако важно признать, что цифровые коллекции, особенно электронные тексты, требуют значительных ресурсов, обслуживая лишь часть академического сообщества. Электронные текстовые центры в основном занимаются разработкой ресурсов для гуманитарных наук.Литература, хорошо подкрепленная неофициальными данными, предполагает раскол между исследователями в области гуманитарных наук по технологическому признаку (Olsen, 1992; DeLoughry, 1993; Katz, 1999; Sukovic, 2000). Решение сделать большие инвестиции, которые обслуживают только часть исследовательского сообщества, ставится под сомнение. Хотя мы не можем вдаваться здесь во все аргументы, важно признать это сомнение и кратко остановиться на нем. Методы исследования развиваются с течением времени, вместе с технологическими разработками или вопреки им. Научные библиотеки не могут игнорировать значительные достижения в методах исследования, используемых в академической области, которую поддерживает библиотека.При определении того, каким должен быть их вклад в исследования (на основе того, как используются электронные тексты), библиотеки должны принимать во внимание факторы затрат и выгод.

    3. Подход к кодированию

    Как только библиотека решила заняться кодированием текста, возникает важный вопрос, какой метод кодирования лучше. Нет никаких сомнений в том, что использование SGML или XML в соответствии с рекомендациями Text Encoding Initiative (TEI) является лучшим выбором библиотеки для разработки научных электронных текстов.

    3.1 Существующая практика

    За последнее десятилетие электронные текстовые центры установили ряд стандартных подходов к кодированию. Принятые уровни кодирования для каждого центра были приняты на основе многих факторов, как общих, таких как огромное количество текстов, подлежащих преобразованию, так и локальных, таких как приверженность организации электронным текстам. Различные отчеты о том, как были созданы электронные текстовые центры, свидетельствуют о процедурах и практиках, установленных в ответ на многочисленные соображения и требования.

    3.2 Проект руководства

    Первый проект руководства по кодированию TEI в библиотеках был написан в 1999 г. (Friedland et al., 1999). Руководящие принципы важны по нескольким причинам. Во-первых, они дают библиотекарям-кодировщикам чувство общности. Во-вторых, необходимы стандарты и своды правил, чтобы избежать больших ошибок и напрасной траты времени. В-третьих, Проект Руководящих принципов предоставляет исследователям отправную точку для формирования ожиданий и планирования своих исследовательских проектов.

    Проект Руководящих принципов признает пять уровней кодирования. Уровни 1–4 не требуют специальных знаний содержания, а уровень 5 требует научного анализа. Уровень 1 начинается с полностью автоматизированного преобразования и кодирования. Сложность кодирования увеличивается на каждом уровне вплоть до уровня 4, который включает в себя базовый контент-анализ. Уровень 5 зарезервирован для научных проектов кодирования и требует предметных знаний — кодируются семантические, лингвистические, просодические и другие элементы за пределами структурного уровня.Проект Руководства краток и не содержит подробной спецификации для различных уровней семантического кодирования. Однако они обеспечивают основу и важные ориентиры.

    3.3 Традиционные библиотечные навыки

    Подводя итоги традиционных библиотечных навыков и инструментов, еще одним важным навыком, который библиотекари привносят в кодирование текста, является хорошо зарекомендовавшая себя библиотечная практика именования документов и их содержимого. Библиотеки традиционно занимались распознаванием и называнием различных ссылок на людей, места, организации, объекты, события и т. д.Семантическая интерпретация была обычной практикой библиотек при назначении предметных заголовков, выборе упорядоченных форм имен, определении языков, используемых в публикации, и т. д. Огромный аппарат кодексов и правил, тезаурусов, авторитетных файлов и систем маркировки был разработан для поддержки задач распознавания важной информации в документе и представления ее в доступной стандартизованной форме. Научное сообщество зависит от интерпретации библиотекой авторства и содержания целых документов, даже корпусов.Разве библиотека не должна продолжать такую ​​интерпретацию посредством кодирования текста на уровне слов или фраз? Информационные специалисты уже создают хорошие указатели, описывающие содержание вплоть до уровня абзаца, а некоторые исследователи выразили желание создать еще большее количество подробных реферативных сервисов, библиографий и каталогов.

    Это, конечно, не означает, что библиотекари должны заниматься научной интерпретацией. Это всего лишь означает, что они должны применять свои лучшие инструменты и навыки в этой новой области деятельности.Еще одна вещь, которую следует учитывать, это то, могут ли библиотеки выделить персонал и ресурсы для такого прекрасного кодирования, но это вопрос администраторов грантов, а также менеджеров университетов и библиотек. В долгосрочной перспективе может оказаться дешевле и эффективнее, чтобы библиотекари отмечали в текстах вхождения личных и географических имен, а ученые продолжали надлежащие научные исследования, чем если бы ученые выполняли обе задачи. Нет никаких причин, по которым библиотекари должны отказываться от своего опыта использования больших авторитетных файлов, когда они начинают кодировать содержимое документов.Кроме того, для того, чтобы ученые завершили подготовку фундамента для своих исследований (что является их основным интересом), для них будет пустой тратой времени изучать то, что библиотекари уже знают об индексировании и использовании авторитетных файлов. Наоборот, для всех было бы полезнее, если бы библиотекари из электронных текстовых центров собрались вместе со своими коллегами, каталогизаторами и индексаторами, чтобы посмотреть, как лучше всего объединить навыки из своего профессионального спектра.

    4. Пример кодировки

    Кодировка текста Дневник поездки в Австралию, 1897 Эвелин Луизы Николсон (Nicholson 1999) служит примером для поднятых здесь вопросов.

    Дневник интересен прежде всего как исторический документ. Хотя можно было бы рассмотреть литературоведческие, социально-психологические или любые другие характеристики текста, они, во-первых, вполне относятся к научной сфере. Во-вторых, историческая перспектива может быть фоном для других точек зрения. Хотя я не мог предоставить исторический анализ, я хотел сделать текст доступным для поиска как документ об австралийцах и местах того времени.

    Важными частями любого исторического документа являются ссылки на даты, людей, места, события и объекты, имеющие историческое значение.Необходимость кодирования дат в дневнике была очевидна. Текст расположен не в строгом хронологическом порядке; поэтому было полезно использовать механизм отслеживания дат. Я размечал упоминания «сегодня», дней недели и им подобных слов, когда они обозначали начало нового дня или набора событий, и когда их интерпретация в контексте была однозначной.

    Также были отмечены ссылки на людей, места, организации и лодки. В дневнике есть ряд ссылок на Сиднейский университет, и, поскольку эти ссылки представляют особый интерес для коллекции, я решил, что их следует отличать от других типов ссылок.Когда это было возможно, предоставлялись регулярные формы личных имен, а также отделов и зданий Сиднейского университета. Личные имена упорядочивались только тогда, когда личность человека была однозначной. Во всех остальных случаях ссылки на людей помечались атрибутом «человек», что позволяло построить список всех упоминаний людей. Ссылки на одного и того же человека объединяются, даже если их имя не было регуляризировано.

    5. Последствия

    Этот тип кодирования текста занимает много времени, особенно если применяется ко всей потенциально значимой информации.Однако некоторые тексты и определенная информация в них требуют внимания исследователей, и богатая кодировка основных текстов не должна быть лишней. Обогащенные электронные тексты также могут продемонстрировать университет как электронного издателя. В эпоху, когда частные компании усердно работают над созданием еще одного продукта с добавленной стоимостью, библиотекарям не нужно далеко ходить, чтобы воспользоваться растущими возможностями, к которым их профессия так естественно подготовила их.

    Важный вопрос заключается не в том, должны ли библиотеки иметь дело с содержанием документов — они всегда имели с ним дело.Возникают вопросы: как библиотекари могут расширить свои навыки кодирования текста и кто будет поддерживать такую ​​работу? Хотя на них трудно ответить, это не философские вопросы, а скорее практические вопросы, связанные с использованием стандартов и наличием средств для новой задачи. Кроме того, существует стратегический вопрос о том, как сформировать новые союзы различных библиотечных специалистов и исследователей. Поиск решений этих проблем может принести многочисленные выгоды: значительно лучший поиск информации, электронные тексты как лучшие инструменты исследования, освобождение ученых от самостоятельной работы над фундаментом, повышение статуса исследовательских библиотек и конкурентоспособный продукт университета.

    Имея многовековой опыт в воспроизведении, каталогизации, классификации и индексации документов, а также в разработке и поиске информации, библиотекари имеют хорошие возможности для того, чтобы взять на себя роль в кодировании текста, чтобы выйти за рамки скрипториума и традиционных библиотечных ролей.

    Каталожные номера

    DeLoughry, Thomas J. 1993. Опрос преподавателей иностранных языков показывает, что компьютеры широко используются. Хроника высшего образования 39, 33: A27.

    Фридланд, ЛиЭллен, Нэнси Кушигиан, Кристина Пауэлл, Дэвид Симэн, Наталья Смит и Перри Уиллетт.1999. Кодирование текста TEI в библиотеках: проект руководства по передовым методам кодирования: версия 1.0 (30 июля 1999 г.) . [Представлено на совместном ежегодном собрании Ассоциации компьютеров и гуманитарных наук и Ассоциации литературных и лингвистических вычислений в июне 1999 г.]. Доступно на http://www.indiana.edu/~letrs/tei/»>http://www.indiana.edu/~letrs/ тей/>; Интернет; по состоянию на 19 августа 1999 г.

    Katz, Stanley N. 1999. Компьютер не пишущая машинка, или Знакомство с информационными технологиями в гуманитарных науках .Лекция из серии Digital Directions Speakers, Университет Вирджинии, 4 февраля. Доступно по адресу ; Интернет; по состоянию на 3 июня 1999 г.

    МакГанн, Джером. 1996. Сияющая текстуальность . Доступно по адресу ; Интернет; по состоянию на 13 декабря 2001 г.

    Мерсиека, Пол. 1999. От оцифровки к публикации: использование SIN на диске в качестве примера.Конференция и выставка In : 1999 г. и далее: партнерство и парадигмы, 6-8 сентября 1999 г., Сидней , Австралийская библиотечная и информационная ассоциация Австралии. Секция справочно-информационных служб, 1999 г. Доступно по адресу: ; Интернет; по состоянию на 10 сентября 1999 г.

    Американская ассоциация современного языка. Комитет по научным изданиям. 1997. Руководство по электронным научным изданиям . Доступно на ; Интернет; по состоянию на 16 сентября 1999 г.

    Национальная библиотека Австралии. 1999. Руководство по отбору онлайновых австралийских публикаций, предназначенных для сохранения Национальной библиотекой Австралии . Доступно по адресу ; Интернет; по состоянию на 18 августа 1999 г.

    Николсон, Эвелин Луиза. 1999. Дневник поездки в Австралию, 1897 [компьютерный файл]. Сидней: Библиотека Сиднейского университета, Служба научных электронных текстов и изображений.Доступна с &lthttp://setis.library.usyd.edu.au/ozlit/ozlitbrowse.html> Интернет; по состоянию на 14 января 2002 г.

    Олсен, Марк. 1992. Знаки, символы и дискурсы: новое направление компьютерных исследований литературы . Доступно по адресу ; Интернет; по состоянию на 19 августа 1999 г.

    Сукович, Сузана. 2000. Гуманитарные исследователи и электронные тексты. ЛАСИЕ , 31, 3: 5-29. Доступно с

    Добавить комментарий

    Ваш адрес email не будет опубликован.