Закодировать слово информатика: Как закодировать слово информатика

Содержание

Как закодировать слово информатика

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 — 127

00100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 — пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Чаще всего кодированию подвергаются тексты, написанные на естественных языках (русском, немецком и др.).

Основные способы кодирования текстовой информации

Существует несколько основных способов кодирования текстовой информации:

  1. графический, в котором текстовая информация кодируется путем использования специальных рисунков или знаков;
  2. символьный, в котором тексты кодируются с использованием символов того же алфавита, на котором написан исходник;
  3. числовой, в котором текстовая информация кодируется с помощью чисел.

Процесс чтения текста представляет собой процесс, обратный его написанию, в результате которого письменный текст преобразуется в устную речь. Чтение – это ничто иное, как декодирование письменного текста.

А сейчас обратите внимание на то, что существует много способов кодирования одного и того же текста на одном и том же языке.

Поскольку мы русские, то и текст привыкли записывать с помощью алфавита своего родного языка. Однако тот же самый текст можно записать, используя латинские буквы. Иногда это приходится делать, когда мы отправляем SMS по мобильному телефону, клавиатура которого не содержит русских букв, или же электронное письмо на русском языке за границу, если у адресата нет русифицированного программного обеспечения. Например, фразу «Здравствуй, дорогой Саша!» можно записать как:

«Zdravstvui, dorogoi Sasha!».

Попробуй обратиться за помощью к преподавателям

Стенография

Стенография — это один из способов кодирования текстовой информации с помощью специальных знаков. Она представляет собой быстрый способ записи устной речи. Навыками стенографии могут владеть далеко не все, а лишь немногие специально обученные люди, которых называют стенографистами. Эти люди успевают записывать текст синхронно с речью выступающего человека, что, на наш взгляд, достаточно сложно. Однако для них это не проблема, поскольку в стенограмме целое слово или сочетание букв могут обозначаться одним знаком. Скорость стенографического письма превосходит скорость обычного в $4-7$ раз. Расшифровать (декодировать) стенограмму может только сам стенографист.

На рисунке представлен пример стенографии, в которой написано следущее: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»:

Задай вопрос специалистам и получи
ответ уже через 15 минут!

Стенография позволяет не только вести синхронную запись устной речи, но и рационализировать технику письма.

Приведёнными примерами мы проиллюстрировали важное правило: для кодирования одной и той же информации можно использовать разные способы, при этом их выбор будет зависеть от цели кодирования, условий и имеющихся средств.

Если нам нужно записать текст в темпе речи, сделаем это с помощью стенографии; если нужно передать текст за границу, воспользуемся латинским алфавитом; если необходимо представить текст в виде, понятном для грамотного русского человека, запишем его по всем правилам грамматики русского языка.

Также немаловажен выбор способа кодирования информации, который, в свою очередь, может быть связан с предполагаемым способом её обработки.

Рассмотрим пример представления чисел количественной информации. Используя буквы русского алфавита, можно записать число «тридцать пять». Используя же алфавит арабской десятичной системы счисления, запишем: $35$. Допустим нам необходимо произвести вычисления. Естественно, что для выполнения расчётов мы выберем удобную для нас запись числа арабскими цифрами, хотя можно примеры описывать и словами, но это будет довольно громоздко и не практично.

Заметим, что приведенные выше записи одного и того же числа используют разные языки: первая — естественный русский язык, вторая — формальный язык математики, не имеющий национальной принадлежности. Переход от представления на естественном языке к представлению на формальном языке можно также рассматривать как кодирование.

Криптография

В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью.

Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается исходный текст. Шифрование — это тоже кодирование, но с засекреченным методом, известным только источнику и адресату. Методами шифрования занимается наука криптография.

Криптография — это наука о методах и принципах передачи и приема зашифрованной с помощью специальных ключей информации. Ключ — секретная информация, используемая криптографическим алгоритмом при шифровании/расшифровке сообщений.

Числовое кодирование текстовой информации

В каждом национальном языке имеется свой алфавит, который состоит из определенного набора букв, следующих друг за другом, а значит и имеющих свой порядковый номер.

Каждой букве сопоставляется целое положительное число, которое называют кодом символа. Именно этот код и будет хранить память компьютера, а при выводе на экран или бумагу преобразовывать в соответствующий ему символ. Помимо кодов самих символов в памяти компьютера хранится и информация о том, какие именно данные закодированы в конкретной области памяти. Это необходимо для различия представленной информации в памяти компьютера (числа и символы).

Используя соответствия букв алфавита с их числовыми кодами, можно сформировать специальные таблицы кодирования. Иначе можно сказать, что символы конкретного алфавита имеют свои числовые коды в соответствии с определенной таблицей кодирования.

Однако, как известно, алфавитов в мире большое множество (английский, русский, китайский и др.). Соответственно возникает вопрос, каким образом можно закодировать все используемые на компьютере алфавиты.

Чтобы ответить на данный вопрос, нам придется заглянуть назад в прошлое.

В $60$-х годах прошлого века в американском национальном институте стандартизации (ANSI) была разработана специальная таблица кодирования символов, которая затем стала использоваться во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange, что означает в переводе с английского «американский стандартный код для обмена информацией»).

В данной таблице представлен $7$-битный стандарт кодирования, при использовании которого компьютер может записать каждый символ в одну $7$-битную ячейку запоминающего устройства. При этом известно, что в ячейке, состоящей из $7$ битов, можно сохранять $128$ различных состояний. В стандарте ASCII каждому из этих $128$ состояний соответствует какая-то буква, знак препинания или же специальный символ.

В процессе развития вычислительной техники стало ясно, что $7$-битный стандарт кодирования достаточно мал, поскольку в $128$ состояниях $7$-битной ячейки нельзя закодировать буквы всех письменностей, имеющихся в мире.

Чтобы решить эту проблему, разработчики программного обеспечения начали создавать собственные 8-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Во избежание путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ — реализуют региональные языковые особенности.

Как мы знаем национальных алфавитов огромное количество, поэтому и расширенные таблицы ASCII-кодов представлены множеством вариантов. Так для русского языка существует также несколько вариантов, наиболее распространенные Windows-$1251$ и Koi8-r. Большое количество вариантов кодировочных таблиц создает определенные трудности. К примеру, мы отправляем письмо, представленное в одной кодировке, а получатель при этом пытается прочесть его в другой. В результате на экране у него появляется непонятная абракадабра, что говорит о том, что получателю для прочтения письма требуется применить иную кодировочную таблицу.

Существует и другая проблема, которая заключается в том, что алфавиты некоторых языков содержат слишком много символов, которые не позволяют помещаться им в отведенные позиции с $128$ до $255$ однобайтовой кодировки.

Следующая проблема возникает тогда, когда в тексте используют несколько языков (например, русский, английский и немецкий). Нельзя же использовать обе таблицы сразу.

Для решения этих проблем в начале $90$-х годов прошлого столетия был разработан новый стандарт кодирования символов, который назвали Unicode. С помощью этого стандарта стало возможным использование в одном тексте любых языков и символов.

Данный стандарт для кодирования символов предоставляет $31$ бит, что составляет $4$ байта за минусом $1$ бита. Количество возможных комбинаций при использовании данной кодировочной таблицы очень велико: $231 = 2 147 483 684$ (т.е. более $2$ млрд.). Это возможно стало в связи с тем, что Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и другие специальные символы. И все-таки информационная емкость $31$-битового Unicode слишком велика, И как следствие, наиболее часто используют именно сокращенную $16$-битовую версию ($216 = 65 536$ значений), в которой представлены все современные алфавиты. В Unicode первые $128$ кодов совпадают с таблицей ASCII.

Так и не нашли ответ
на свой вопрос?

Просто напиши с чем тебе
нужна помощь

1. Основные понятия

Закодировать текст – значит сопоставить ему другой текст. Кодирование применяется при передаче данных – для того, чтобы зашифровать текст от посторонних, чтобы сделать передачу данных более надежной, потому что канал передачи данных может передавать только ограниченный набор символов (например, — только два символа, 0 и 1) и по другим причинам.

При кодировании заранее определяют алфавит, в котором записаны исходные тексты (исходный алфавит) и алфавит, в котором записаны закодированные тексты (коды), этот алфавит называется кодовым алфавитом. В качестве кодового алфавита часто используют двоичный алфавит, состоящий из двух символов (битов) 0 и 1. Слова в двоичном алфавите иногда называют битовыми последовательностями.

2. Побуквенное кодирование

Наиболее простой способ кодирования – побуквенный. При побуквенном кодировании каждому символу из исходного алфавита сопоставляется кодовое слово – слово в кодовом алфавите. Иногда вместо «кодовое слово буквы» говорят просто «код буквы». При побуквенном кодировании текста коды всех символов записываются подряд, без разделителей.

Пример 1. Исходный алфавит – алфавит русских букв, строчные и прописные буквы не различаются. Размер алфавита – 33 символа.

Кодовый алфавит – алфавит десятичных цифр. Размер алфавита — 10 символов.

Применяется побуквенное кодирование по следующему правилу: буква кодируется ее номером в алфавите: код буквы А – 1; буквы Я – 33 и т.д.

Тогда код слова АББА – это 1221.

Внимание: Последовательность 1221 может означать не только АББА, но и КУ (К – 12-я буква в алфавите, а У – 21-я буква). Про такой код говорят, что он НЕ допускает однозначного декодирования

Пример 2. Исходный и кодовый алфавиты – те же, что в примере 1. Каждая буква также кодируется своим номером в алфавите, НО номер всегда записывается двумя цифрами: к записи однозначных чисел слева добавляется 0. Например, код А – 01, код Б – 02 и т.д.

В этом случае кодом текста АББА будет 01020201. И расшифровать этот код можно только одним способом. Для расшифровки достаточно разбить кодовый текст 01020201 на двойки: 01 02 02 01 и для каждой двойки определить соответствующую ей букву.

Такой способ кодирования называется равномерным. Равномерное кодирование всегда допускает однозначное декодирование.

Далее рассматривается только побуквенное кодирование

3. Неравномерное кодирование

Равномерное кодирование удобно для декодирования. Однако часто применяют и неравномерные коды, т.е. коды с различной длиной кодовых слов. Это полезно, когда в исходном тексте разные буквы встречаются с разной частотой. Тогда часто встречающиеся символы стоит кодировать более короткими словами, а редкие – более длинными. Из примера 1 видно, что (в отличие от равномерных кодов!) не все неравномерные коды допускают однозначное декодирование.

Есть простое условие, при выполнении которого неравномерный код допускает однозначное декодирование.

Код называется префиксным, если в нем нет ни одного кодового слова, которое было бы началом (по-научному, — префиксом) другого кодового слова.

Код из примера 1 – НЕ префиксный, так как, например, код буквы А (т.е. кодовое слово 1) – префикс кода буквы К (т.е. кодового слова 12, префикс выделен жирным шрифтом).

Код из примера 2 (и любой другой равномерный код) – префиксный: никакое слово не может быть началом слова той же длины.

Пример 3. Пусть исходный алфавит включает 9 символов: А, Л, М, О, П, Р, У, Ы, -. Кодовый алфавит – двоичный. Кодовые слова:

Кодовые слова выписаны в алфавитном порядке. Видно, что ни одно из них не является началом другого. Это можно проиллюстрировать рисунком

На рисунке изображено бинарное дерево. Его корень расположен слева. Из каждого внутреннего узла выходит два ребра. Верхнее ребро имеет пометку 0, нижнее – пометку 1. Таким образом, каждому узлу соответствует слово в двоичном алфавите. Если слово X является началом (префиксом) слова Y, то узел, соответствующий слову X, находится на пути из корня в узел, соответствующий слову Y. Наши кодовые слова находятся в листьях дерева. Поэтому ни одно из них не является началом другого.

Теорема (условие Фано). Любой префиксный код (а не только равномерный) допускает однозначное декодирование.

Разбор примера (вместо доказательства). Рассмотрим закодированный текст, полученный с помощью кода из примера 3:

Будем его декодировать таким способом. Двигаемся слева направо, пока не обнаружим код какой-то буквы. 0 – не кодовое слово, а 01 – код буквы М.

0100010010001110110100100111000011100

Значит, исходный текст начинается с буквы М: код никакой другой буквы не начинается с 01! «Отложим» начальные 01 в сторону и продолжим.

Далее таким же образом находим следующее кодовое слово 00 – код буквы А.

Доведите расшифровку текста до конца самостоятельно. Убедитесь, что он расшифровывается (декодируется) однозначно.

Замечание. В расшифрованном тексте 14 букв. Т.к. в алфавите 9 букв, то при равномерном двоичном кодировании пришлось бы использовать кодовые слова длины 4. Таким образом, при равномерном кодировании закодированный текст имел бы длину 56 символов – в полтора раза больше, чем в нашем примере (у нас 37 символов).

4. Как все это повторять. Задачи на понимание

Знание приведенного выше материала достаточно для решения задачи 5 из демо-варианта и близких к ней (см. здесь). Повторять (учить) этот материал стоит в том порядке, в котором он изложен. При этом нужно решать простые задачи – до тех пор, пока не будет достигнуто полное понимание. Ниже приведены возможные типы таких задач. Опытные учителя легко придумают (или подберут) конкретные задачи таких типов. Если будут вопросы – пишите.

1) Понятие побуквенного кодирования.

Дан алфавит Ф и кодовые слова для всех слов в алфавите Ф. Закодировать заданный текст в алфавите Ф. Коды могут быть с использованием разных кодовых алфавитов, равномерные и неравномерные.

2) Префиксные неравномерные коды.

2.1) Дан алфавит Ф и двоичный префиксный код для этого алфавита. Построить дерево кода (см. рис.1) и убедиться, что код – префиксный.

2.2) Дан алфавит Ф и двоичный префиксный код для этого алфавита. Декодировать (анализом слева направо) данный текст в кодовом алфавите.

2.3) Дан алфавит Ф и кодовые слова для всех слов в алфавите Ф. Определить, является ли данный код префиксным, или нет. В качестве примеров полезно приводить:

2.4) Решать задачи для самостоятельного решения, например, отсюда

Урок информатики по теме «Кодирование информации». 2-й класс

Цели урока:

  • рассмотреть примеры из жизни, когда люди использовали и используют кодирование информации;
  • сформировать первоначальное представление о смысле слова “кодирование” и “декодирование”;
  • познакомить учащихся с некоторыми наиболее распространенными способами кодирования.

Оборудование.

Ход урока

I. Организационный момент.

II. Самоопределение к деятельности.

– Вставив, пропущенные буквы алфавита, вы сможете узнать тему нашего урока.

Й*Л Н*П Г*Е З*Й П*С Н*П Б*Г *Б М*О З*Й Д*Ё (КОДИРОВАНИЕ)

З*Й М*О У*Х Н*П П*С Л*Н *Б Х*Ч З*Й З*Й (ИНФОРМАЦИИ)

Дети выходят к доске и вставляют пропущенные буквы (деятельностный подход).

– Итак, тема нашего урока: “Кодирование информации”.

– Давайте попытаемся задать вопросы по теме урока, на которые мы сегодня должны получить ответ:

– Что такое кодирование информации?

– Как можно закодировать информацию?

– Зачем людям понадобилось её кодировать? (На доске слова-помощники: Что? Как? Зачем?)

– Ребята, как вы думаете, что я сделала с темой урока? Правильно, я ее спрятала или по-другому, зашифровала. Кто уже догадался, что значит “закодировать информацию”?

– И сегодня на уроке мы будем учиться кодировать информацию – шифровать и декодировать информацию – расшифровывать. (Слайд № 1)

– А при помощи чего была закодирована тема урока? (При помощи букв. Учитель вывешивает под темой урока “Кодирование информации” табличку с надписью БУКВАМИ)

III. Работа по теме урока.

1. Вам предстоит отгадать тайну одной девочки. А для этого вам нужно прочитать закодированный текст. (Слайд № 2)

– При помощи чего зашифрованы некоторые слова текста? (При помощи рисунков. Учитель вывешивает табличку с надписью РИСУНКАМИ)

2. Давайте мысленно перенесёмся на улицы нашего города. Где же люди используют кодирование с помощью рисунков? Открыть Слайд №3. Правила дорожного движения закодированы с помощью дорожных знаков. Для чего? (Лучше хранить информацию, легче запоминать).

3. При создании правил дорожного движения люди использовали ещё один способ кодирования информации. Его вы мне назовёте сами, когда отгадаете загадку.

Он стоит на перекрёстках,
Светит для детей и взрослых.
Тот, кто плохо его знает,
На дороге пострадает!
У него всего три цвета,
Светит он для всей планеты.
Он машин решает спор,
Всем знакомый … (светофор). Слайд № 4.

– Что же означают света светофора? С помощью чего люди закодировали информацию? (С помощью цвета). Есть еще один вид светофора. На нём тоже информация закодирована с помощью цвета. Кому служит этот светофор? (Пешеходам) На доске появляется табличка ЦВЕТОМ.

4. Пока мы с вами гуляли по улицам города, нам пришло секретное сообщение.

Слайд № 5. Попробуйте его расшифровать. Что вам понадобится для расшифровки? (Ключ к шифру или код). Рабочая тетрадь №1 по информатике Н.В.Матвеева, 2 класс, с.52

(Дети работают в парах и расшифровывают сообщение: “Помогите! Я попал в беду!”)

– Вам понятно, кому мы должны помочь? Давайте раскодируем информацию до конца.

5. Цифровое кодирование. Слайды № 6, № 7. Индивидуальная работа.

– Восстановите рисунок по заданному коду: необходимо раскрасить только клеточки с цифрой 1. (Кодирование ЦИФРАМИ)

6. В какую же беду мог попасть Колобок? (Его хочет съесть лиса) Слайд № 8.

– Лиса сегодня добрая. Она отпустит Колобка, если он споёт её любимую песню. Но сначала эту песню нужно отгадать. При помощи чего зашифрована любимая песня Лисы? (При помощи НОТ. Табличка помещается на доску.)

– Колобок нот не знает, вот и просит у вас помощи. Кто же сможет помочь Колобку? (Тот, кто знает ноты. Попросить его сыграть мелодию на музыкальном инструменте).

– Итак, какая же у лисы любимая песня? (“Жили у бабуси два веселых гуся”)

– А мы с вами, хоть и не музыканты, но зашифровать слова с помощью нот попробуем. Ведь на уроках музыки мы знакомились с нотным станом. (Учитель раздает каждой паре по 1 ноте)

БУЛЬ____Г _____Р ЧЕ___ПАХА
КАРА ____ ПО ____НА _____ _______ ФАСОЛЬ

7. Закодированная физкультминутка (Как живешь? Вот так!)

– Скажите, пожалуйста, с помощью чего вы мне отвечали на мои вопросы? ( С помощью движений или ЖЕСТОВ). Значит, с помощью жестов тоже можно зашифровать информацию. А кому нужна информация, закодированная с помощью жестов? (Глухонемым людям)

8. Работа в группах.

– Существуют и другие виды кодирования: Пляшущие человечки, Флажковая азбука, Индейская азбука (Рабочая тетрадь по информатике Н.В.Матвеева, 2 класс, с.34) и слайды

№ 9, №10.

– Предлагаю вам сейчас поработать в группах.

Задание 1 группе. Декодировать сообщение, переданное с помощью флажковой азбуки.

Задание 2 группе. Декодировать сообщение индейца, воспользовавшись индейской азбукой.

Задание 3 группе. Закодировать слово с помощью пляшущих человечков.

IV. Компьютерный практикум. Самостоятельная работа.

– Пришло время заняться шифрованием информации за компьютером.

– Но прежде, чем сесть за компьютеры, давайте вспомним правила работы с ним. Я их буду называть, а вы, если со мной согласны, то хлопаете в ладоши, а если не согласны, то топаете ногами. Какие слова я закодировала движениями? (Да и нет)

  • Нельзя включать компьютер без разрешения учителя.
  • Во время работы за компьютером можно дотрагиваться до монитора руками.
  • Во время работы за компьютером на парте не должно находиться посторонних предметов.
  • За компьютером можно работать мокрыми руками.
  • Во время работы за компьютером можно разговаривать и передвигаться по классу.
  • Можно сидеть близко от экрана компьютера.
  • Нельзя включать неисправный компьютер.
  • Перед выполнением работы нужно внимательно изучить порядок действий.

– Мы познакомимся с вами с еще одним видом кодирования – АДРЕСОМ. (После объяснения учителя дети расшифровывают информацию с помощью адреса). Приложение 2.

V. Подведение итогов.

– Давайте вспомним, что такое кодирование? И с помощью чего мы кодировали информацию?
– Вы так хорошо сегодня потрудились, что мне очень хочется закончить урок следующими словами, которые я зашифровала с помощью цветов радуги.
– Если вы расставите слоги в соответствии с цветами радуги, то сможете узнать, что я вам так хотела сказать! (Слоги выдать ученикам)

Спасибо за работу! Слайд №11

VI. Рефлексия.

– Сегодня я узнал (а)…
– У меня получилось …
– Теперь я могу …
– Было интересно …

Кодирование и декодирование информации — Информатика и ИКТ в гимназии 1554

Справочные материалы

Знаковая система состоит из упорядоченного набора знаков (символов), который называется алфавитом.

Полное количество символов алфавита называется мощностью алфавита.

Кодирование — это представление информации в форме, удобной для её хранения, передачи и обработки с помощью символов некого алфавита. При этом каждый символ исходного алфавита (мощности N) при кодировании представляется последовательностью символов кодового алфавита (мощности M), которая называется кодовым словом. 

Иногда кодовое слово называют кратко кодом.

Двоичное кодирование — это кодирование с помощью алфавита из двух знаков.

Если кодирование  осуществляется кодовыми словами переменной длины, такой код называется неравномерным.

Декодирование — это восстановление сообщения из последовательности кодов.

Закодированное неравномерным кодом сообщение можно однозначно декодировать с начала, если выполняется прямое условие Фано: никакое кодовое слово не является началом другого кодового слова.

Закодированное сообщение можно однозначно декодировать с конца, если выполняется обратное условие Фано: никакое кодовое слово не является концом другого кодового слова.

Префиксный код — это неравномерный код, для которого выполняется прямое условие Фано.

Сообщения, закодированные префиксным кодом, можно декодировать «на лету», не дожидаясь получения всего сообщения целиком. Префиксные коды используются для кодирования аудио- и видеофайлов, поэтому можно слушать музыку или смотреть видео до того, как файл загрузится целиком.

Если кодирование  осуществляется кодовыми словами одинаковой длины, такой код называется равномерным. При таком кодировании нет необходимости вводить символ-разделитель, но сообщение, чаще всего, становится длиннее, чем при использовании неравномерных кодов.

Если мощность кодового алфавита равна M, а длина кода — l,  можно составить N = Ml различных кодовых слов.

Пример 1.

Какой должна быть минимальная длина равномерного двоичного кода,если требуется составить 18 различных кодовых комбинаций?

Решение:
  1. Количество комбинаций можно считать символами исходного алфавита, тогда мощность исходного алфавита N=18.
  2. Мощность двоичного кодового алфавита M=2.
  3. Из формулы N =2 найдем длину двоичного кода = log2N =log218. Округлим полученный результат до ближайшего целого. Получим  = 5.
  4. Или: используя таблицу степеней числа 2, найдем длину двоичного кода l, такую, что 2l≥18. Т.к. 25=32≥18, то = 5.
  5. Ответ: 5.

Пример 2.

Два сторожевых отряда, расположенных на большом расстоянии друг от друга, условились передавать друг другу сообщения с помощью сигнальных ракет белого, красного и зеленого цвета. Сколько различных сообщений можно передать, запустить ровно 5 ракет (ракет каждого вида неограниченное количество)?

Решение:
  1. Мощность кодового алфавита M=3 (используются ракеты трёх цветов).
  2. Длина кодового слова l=5 (ровно 5 ракет).
  3. Из формулы N =M найдем количество комбинаций N =35 = 243
  4. Эту задачу можно решить простыми рассуждениями. Так как имеем неограниченное количество ракет трёх видов, то каждую следующую ракету в последовательности из пяти ракет можно выбрать тремя способами. Получаем 3·3·3·3·3=243.
  5. Ответ: 243.

Кодирование по учебнику-тетради А.В. Горячева «Информатика в играх и задачах»

Цели:

  • познакомить с понятиями «кодирование» и «декодирование»;
  • научить действиям «кодированию» и «декодированию», т.е ставить в соответствие предметам или действиям другие предметы или действия;
  • расширять кругозор, пополнять словарный запас, укреплять межпредметные связи;
  • развивать психические процессы: внимание, память, воображение, мышление;
  • через различные виды деятельности и формы организации урока прививать интерес к предмету, показать необходимость получения данных умений и навыков, которые помогут правильно ориентироваться в жизни.

Оборудование: «Презентация», тетради, цветные карандаши, сигналы, карточки с алфавитом, картинки с предметами, ребусы, карточки с буквами и цветными квадратиками, карточки со словами, толковый словарь С.И.Ожегова, дорожные знаки, светофор, рисунок с изображением радуги.

ХОД УРОКА

I. Организационный момент

Учитель. Здравствуйте, ребята!

Ученики. Здравствуйте!

Учитель. Ответьте на такие вопросы.
– Какое сегодня число? (21)
– А какой день недели был вчера? (Среда)
– Закончится месяц февраль и наступит? (Март)
– У кого одна нога, да и та без башмака? (Гриб)
– На берёзе 5 огурцов, а на осине на 2 огурца больше. Сколько огурцов на осине? (Не растут)
– Если яблоко больше груши, то, что из них меньше? (Груша)
– В названии  какого хвойного дерева содержится призыв о помощи? (Сосна)
– Чтобы сварить одно яйцо вкрутую нужно 3 минуты. Сколько времени необходимо затратить для того, чтобы сварить три таких яйца? (3 минуты)

Учитель.

Прозвенел уже звонок  
Начинать пора урок.

Ученики.

Ох, как хочется трудиться
Делать всё охота
Чтоб трудом своим гордиться
Пусть кипит работа!

Учитель. Садитесь. Урок – информатика. (Приложение. Слайд 1). Давайте приступим к работе. На уроке нужно выполнить № 41, № 46, № 47, № 42 (а, б), № 43, № 44.
Для тех,  кто закончит раньше № 46, № 48, № 50, (№ 49 – дома)

II. Сообщение темы и цели урока (Приложение. Слайд 2)

Учитель. Тема сегодняшнего урока – «Кодирование». Цель: научиться производить операции «кодирование» и «декодирование». А чтобы работа у нас с вами ладилась, наметим такой план.

План.

1. Кодирование – декодирование.

2. Способы кодирования:

К –
Ц –
Б –
З –
Ц –

3. Применение полученных знаний в жизни.

Учитель. Узнать, что значит кодирование, декодирование.
– Какие бывают способы кодирования.              
– Как думаете, что обозначают эти буквы? (Ответы детей)
– Какие способы кодирования есть узнаем, когда разгадаем эти буквы.

III. Основная часть (Приложение. Слайд 3)

Учитель. Какое слово спряталось в слове кодирование?

Ученики. Код.

Учитель. Где могли в жизни встречаться, когда  нужен код?
Может кто-то из вас скажет, что обозначает слово кодирование? (Ответы детей)
Кодирование – когда одно множество полностью или частично заменяется другим множеством.

Ученик (зачитывает в словаре): В словаре С.И. Ожегова написано: «Кодировать – значит зашифровать при помощи кода».

Учитель. Декодирование – действие, обратное кодированию. Декодировать – значит расшифровать.

1) Задание № 41 (кодирование картинками)

Учитель. Откройте тетради и посмотрите на задание № 41. Это текст. Что в нём интересного?

Ученики. Слова  зашифрованы картинками.

Учитель. Наша задача декодировать, т.е. расшифровать этот текст и прочитать его.

(Ученики читают текст, заменяя картинки словами)

Учитель. Таких интересных рассказов много в журнале «Весёлые картинки». Можете взять и почитать. Делаем вывод: слова или даже целые предложения можно закодировать картинками.
– А вы научились сначала рисовать или писать?

Ученики. Сначала научились рисовать.

Учитель. Да,  люди не умели писать, поэтому сообщение передавали с помощью рисунков. Так с помощью рисунков было написано первое письмо девочкой Таффи.

(Приложение. Слайд 4)

– Подробнее узнать можете из книги «Как было написано первое письмо»
– Посмотрите, что обозначают эти картинки, эти знаки. (Показать дорожные знаки)
– Вспомните, где в жизни, в быту, в технике можно встретить картинки или значки, которые заменяют слова или целые предложения? (Ответы детей) (Показать коробки, ярлыки от одежды, строительных материалов и т. д.)
– Разберём, что обозначают картинки, знаки, изображённые в ваших тетрадях?  С.18. № 41( б) (Ответы детей)

Учитель. К нам в гости пришли живые картинки. По первым буквам этих картинок угадайте слова. (Выходят дети с картинками, две группы – два слова)

Топор, ручка, улитка, дятел – труд; шары, арбуз, гусь, ива – шаги.

2) Задание № 46 (а, б)

Учитель. А теперь откройте с.20 № 46 ( а. б) Прочитайте задание и выполните самостоятельно.

 – Проверка задания. (Приложение. Слайд 5)

IV. Проверка домашнего задания

Учитель. Дома вы собрали слова из букв. (с.17. №40) Назовите слова.( дети называют слова)

V. Продолжение изучения новой темы

3) Кодирование буквами.

Учитель. Что у меня в руке?

Ученики. Буква.

Учитель. Давайте теперь попробуем зашифровать слово с помощью букв. Придумайте любое слово на букву:

Г – гусь (слова записывать на доске)
Р – ручка
О – окно
М – машина

– Мы провели с вами операцию кодирование.
– А теперь ваша задача декодировать, расшифровать задуманное слово.

Ученики. Гром.

Учитель. Самостоятельно выполните задание № 47.

Проверка задания (Приложение. Слайд 6)

Вывод:Мы  производили операцию кодирование с помощью букв.

Учитель. Давайте вспомним, а где ещё при кодировании используются буквы? (Ответы детей)
– Каждый звук человеческого голоса обозначается одной или несколькими буквами и поэтому мы можем сначала записать свою речь, а потом прочитать её. Например: телеграф передаёт написанный текст в виде точек и тире. Так называется азбука Морзе. Когда люди попадали в беду, то отправляли сигнал о помощи – СОС.
В военном деле буквы и слова  могут передаваться флажками, специальными движениями сигнальщика, световыми сигналами. ((Приложение. Слайды 7, 8)  Более подробно об этом  будете учить в пятом классе на уроках информатики.

Вывод: кодировать можно при помощи букв.

4) Кодирование цифрами. Задание № 42.

Учитель. Перед вами два множества. Какие?

Ученики. 1 множество – букв, 2 множество – цифр.

Учитель. Мы узнали, что можно кодировать картинками, значками, буквами.
–  А здесь посмотрите, что ещё появились?

Ученики. Цифры.

Учитель. Значит, кодирование можно осуществлять с помощью цифр. Нам дан код, состоящий из цифр. Скажите хором. Наша задача расшифровать, т. е. цифру заменить буквой.
– Что означает цифра 3?

Ученики. Букву Б. (Подписывают)

Учитель. Выполните самостоятельно. Если затрудняетесь, обращайтесь за помощью к другу.

Проверка  задания.(дети показывают сигнал)

Вывод: Нам был дан код, а мы выполняли операцию декодирование.
– А теперь наоборот, слово зашифруем цифрами.
– Откуда возьмём слова? Давайте составим их из букв слова Буратино.

Ученики. Кора, рано, бра, рот, нота, утро, работа, тина, нора.

Учитель. Запишите слово буквами в нижнем ряду клеток, а вверху зашифруйте цифрами.

Проверка  слова и кода (карточка у учителя)

                    6    8  2  5
                    Н  О Р  А

VI. Физминутка

1. Повторить ритм хлопками за учителем.
2. Нарисовать глазами фигуры: круг, квадрат, треугольник.
3. Кодирование предметов: карандаш – руки вверх, мел – присесть, указка – руки  на пояс, коробочка – хлопнуть в ладоши.

5) Задание № 43.

Учитель. С помощью чего зашифрован предмет?

Ученики. С помощью цифр.

Учитель. Как думаете, что означает цифра?

Ученики. Номер буквы.

Учитель. А раз нет никакого текста под рукой, никакой вспомогательной книги, значит здесь имеют ввиду общесуществующий порядок букв, т.е. алфавит.Будем расшифровывать, ошибаться нельзя, иначе информация будет искажена. Работаем дружно в группах.

Проверка. (Приложение. Слайд 9)

6) Задание № 44

Учитель. Дана координатная сетка. По координатам найти букву. Вспомним: цифры по горизонтали показывают номер столбика или подъезда, расположенные по вертикали –  номер строки или этажа. Работаем самостоятельно. Если трудно, берём помощь друга.

Проверка задания. (Приложение. Слайд 9)

Учитель. Зашифруйте сами любой предмет.

(Ученики выполняют самостоятельно)

Проверка задания. (показать сигнал)

Вывод: можно кодировать картинками, знаками, буквами, цифрами.

7) Кодирование цветом

Учитель. Что это за предмет?

Ученики. Светофор.

Учитель. Как закодированы в светофоре слова красный, жёлтый, зелёный?

Ученики. Цветом.

Учитель. Поиграем. Красный – стоп, зелёный – шагаем, жёлтый – хлопаем.

Учитель. Однажды на уроке рисования я вам сказала: каждый охотник желает знать, где сидит фазан.
– Что я зашифровала этими словами?

Ученики. Цвета радуги.  

Учитель. С ней вы поиграете дома.

Учитель. Посмотрите на карточку. Каждая буква в слове зашифрована цветом. Ваша задача цветными квадратиками зашифровать слово утро, наклеить цветные квадратики на полоске. Работа в группах.

Проверка задания. Сверить полоску с оригиналом.

8) Задание № 45.

Учитель. Что это?

Ученики. Ребус.

Учитель. В ребусе с помощью картинок или особого положения слогов закодированы части слов. Попробуйте отгадать сами. (Приложение. Слайд 10)

(Объяснить значение слов: трибуна – то место, откуда выступают, трикотаж – ткань)

– Ребята  придумали свои ребусы. Попробуйте отгадать. (Дети загадывают ребусы)

VII. Заключительная часть. Итог (Приложение. Слайд 11)

Учитель. Что обозначает слово кодировать?

Ученики. Зашифровать.

Учитель. Что значит декодировать?

Ученики. Расшифровать.

Учитель. Какие способы кодирования вы узнали?

Ученики. Картинками, знаками, буквами, цифрами, цветом.

Учитель. Нужно ли кодирование в жизни?

Ученики. Да. Им очень удобно пользоваться, т.к. содержит краткую нужную
информацию для человека.

Учитель. Зачем мне учителю нужно кодирование?

Ученики. Ставить отметку.

Учитель. Где вы встречаетесь с кодированием?
(Ответы детей)

Учитель. С помощью цвета закодируйте своё настроение.(дети показывают цветной квадрат)

Прозвенел опять звонок
Мы закончили урок.

Лабораторная работа по теме «Различное кодирование символов в текстовых редакторах»

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

Ответ: скоро каникулы

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Ответ: 167 168 172 160

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Возможный вариант: в кодировочной таблице нет буквы ё.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.

Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Урок 2. Лабораторная работа

Цель: Познакомить учащихся с различными кодировками символов, используя текстовые редакторы.

Задача: Выполнить задания в различных текстовых приложениях

1. Текстовый редактор Блокнот

Открыть блокнот.

а) Используя клавишу Alt и малую цифровую клавиатуру раскодировать фразу: 145 170 174 224 174 255 170 160 173 168 170 227 171 235; 

Технология выполнения задания: При удерживаемой клавише Alt, набрать на малой цифровой клавиатуре указанные цифры. Отпустить клавишу Alt, после чего в тексте появится буква, закодированная набранным кодом.

б) Используя ключ к кодированию, закодировать слово  – зима;

Технология выполнения задания: Из предыдущего задания выяснить, каким кодом записана буква а. Учитывая, что буквы кодируются в алфавитном порядке, выяснить коды остальных букв.
Что вы заметили при выполнении этого задания во время раскодировки? Запишите свои наблюдения.

Двоичное слово — что это — 29 Августа 2016 — Примеры решений задач

Если в обычном (естественном) языке, на котором люди общаются, слова сосоят из букв, то в формальных языках слова состоят из символов и если символы принимают значения «0» или «1», то это и есть буквы двоичного слова. Последовательность  символов ( нулей и единиц) называют двоичным словом.

Двоичные слова являются словами формального языка, который разрабатывается для специальных применений. Примером формальных языков могут служить языки программирования, языки кодирования информации для ее передачи, хранения и т.п.

  • Каждый язык имеет свой алфавит. Под алфавитом языка понимают набор используемых символов.
  • Под мощностью алфавита понимают количество составляющих алфавит символов.
  • Кодом называют совокупность знаков (символов) предназначенных для представления информации в соответствии с определенными правилами.
  • Такое представление называют кодированием. Кодируют информацию с целью ее передачи, хранения, преобразования. Одно и то же понятие на различных языках может кодироваться различными способами. Например, слово шкаф— это код в русском алфавите всем известного предмета мебели. В других языках, в других алфавитах этот предмет кодируется иначе.
    • Наименьший по числу знаков алфавит имеет только один знак. Пусть этот знак 1 (единица). Тогда три цвета светофора можно закодировать, например, так: красный — 1, желтый — 11, зеленый — 111. Такой алфавит самый неэкономичный по записи кодов. В этом легко убедиться, если попытаться записать в этом алфавите, например, число десять: 1111111111.  
    • Двоичный алфавит. В информатике и вычислительной технике широко используется алфавит, имеющий два знака — 1 и 0. Этим знакам в логике и технике приводят в соответствие понятия — да и нет, истина и ложь, включено и выключено. Такой алфавит называют двоичным или бинарным. В соответствии с этим введена и наименьшая единица информации — бит (англ. bit, от binary — двоичный и digit — знак).Одного бита информации достаточно, чтобы передать слово да или нет, закодировать, например, состояние электролампочки. Кстати, на некоторых выключателях пишут 1 — включено и 0 — выключено. Взгляд на выключатель снимает для нас неопределенность в его состоянии. При этом мы получаем количество информации равное одному биту.
    • Если требуется закодировать в двоичном алфавите красный, желтый и зеленый цвет светофора, то требуется уже два бита. Закодировать три цвета можно, например, так: 00, 01 и 10. Сообщение о том, что включен, например, красный цвет светофора, содержит информации больше одного бита. Для кодирования четырех сторон света (север, восток, юг и запад) требуется также два бита: 00, 01, 10, 11. Поэтому сообщение о том, какая выбрана сторона света, содержит ровно два бита информации.
    • При кодировании восьми углов куба потребуется три бита: 000, 001, 010, 011, 100, 101, 110, 111. При кодировании от 9 до 16 объектов потребуется уже четыре бита, от 17 до 31 — 5 бит, от 32 до 63 — 6 бит, от 64 до 127 — 7 бит.
  • Последовательность символов называют словом. Можно сделать вывод: чем больше требуется закодировать объектов, тем длиннее требуется двоичное слово.
  • Восьмибитовое двоичное слово называется байтом. С помощью байта можно закодировать 256 различных объектов.

До недавнего времени байта было достаточно, чтобы закодировать все символы текста в русском и латинском алфавите: буквы, цифры, знаки препинания, управляющие сигналы — все то, что передавалось компьютеру с клавиатуры. Для этого использовался код ASCII (American Standard Coding for Information Interchange — Американский Стандартный Код для Обмена Информацией).

С развитием информатики байт начал сдерживать возможность увеличения количества используемых символов. В настоящее время завершается переход на двухбайтовое кодирование символов с использованием кода Unicode. 16-битовое двоичное слово позволяет закодировать 65536 символов и команд.

ЕГЭ по информатике 2021 — Задание 4 (Условие Фано)

Привет! Сегодня узнаем, как решать 4 задание из ЕГЭ по информатике нового формата 2021.

Четвёртое задание из ЕГЭ по информатике раскрывает тему кодирование информации. Одним из центральных приёмов при решении задач подобного типа является построение дерева Фано. Рассмотрим на примерах этот метод.


Задача (стандартная)

По каналу связи передаются сообщения, содержащие только шесть букв: А, B, C, D, E, F. Для передачи используется неравномерный двоичный код, удовлетворяющий условию Фано. Для букв A, B, C используются такие кодовые слова: А — 11, B — 101, C — 0. Укажите кодовое слово наименьшей возможной длины, которое можно использовать для буквы F. Если таких слов несколько, укажите то из них, которое соответствует наименьшему возможному двоичному числу.

Примечание. Условие Фано означает, что ни одно кодовое слово не является началом другого кодового слова. Коды, удовлетворяющие условию Фано, допускают однозначное декодирование


Решение:

Т.к. код букв должен удовлетворять условию Фано (т.е. однозначно декодироваться), то расположим буквы, которые уже имеют код (A, B, C), на Дереве Фано.

Дерево Фано для двоичного кодирования начинается с двух направлений, которые означают 0(ноль) и 1(единицу) (цифры двоичного кодирования).

От каждого направления можно также рисовать только два направления: 0(ноль) и 1(единицу) и т.д. Для удобства будем рисовать 1(единицу) только вправо, а 0(ноль) только влево.

Получается структура похожая на дерево!

В конце каждой ветки можно располагать букву, которую мы хотим закодировать, но если мы расположили букву, от этой ветки больше нельзя делать новых ответвлений.

Такой подход позволяет однозначно декодировать сообщение, состоящее из этих букв.


Буква C заблокировала левую ветку, поэтому будем работать с правой частью нашего дерева.

Если мы расположим какую-нибудь букву на оставшуюся ветку (100), то эта ветка заблокируется, и нам некуда будет писать остальные 2 буквы. Поэтому продолжаем ветку (100) дальше.


Теперь свободно уже две ветки, а нам нужно закодировать ещё три буквы. Поэтому должны ещё раз продолжить дерево от какой-нибудь ветки.

Но уже видно, что букве F будет правильно присвоить код 1000, т.к. нам в условии сказано, что код буквы F должен соответствовать наименьшему возможному двоичному числу. Как расположить буквы D и E в данной задаче не принципиально.


Ответ: 1000.

Ещё один важный тип задания 4 из ЕГЭ по информатике нового формата 2021.


Задача (стандартная)

По каналу связи передаются сообщения, содержащие только семь букв: А, Б, И, К, Л, С, Ц. Для передачи используется двоичный код, удовлетворяющий условию Фано. Кодовые слова для некоторых букв известны: Б — 00, К — 010, Л — 111. Какое наименьшее количество двоичных знаков потребуется для кодирования слова АБСЦИССА?

Примечание. Условие Фано означает, что ни одно кодовое слово не является началом другого кодового слова.


Решение:

Коды букв должны удовлетворять условию Фано. Некоторые буквы уже имеют заданные коды (Б, К, Л). Нам нужно, чтобы слово АБСЦИССА имело как можно меньше двоичных знаков. Заметим, что буква C встречается три раза, а буква A два раза, значит, этим буквам стараемся присвоить как можно меньшую длину!

Отметим на дереве Фано уже известные буквы (Б, К, Л).


У нас осталось 4 (четыре) буквы, а свободных веток 3(три), поэтому мы должны продолжить дерево. но какую ветку продолжить ?


1 вариант

Если продолжить линию 1-0, то получится такая картина :

Теперь получились 4(четыре) свободные ветки равной длины (3(трём) двоичным символам). Т.к. ветки равной длины, то не важно на какую ветку какую букву расположим.

Посчитаем общую длину слова АБСЦИССА.


3 + 2 + 3 + 3 + 3 + 3 + 3 + 3 = 23.


2 вариант

Продлим линию 1-1-0 (можно и 0-1-1, не принципиально, т.к. эти ветки имеют одинаковую длину.), то получится:

С мы присваиваем 1-0, т.к. это буква повторяется в сообщении самое большое количество раз, значит, ей присваиваем самый маленький код, чтобы всё сообщение имело наименьшую длину.

Из этих же соображений букве А присваиваем код из трёх двоичных символов 0-1-1.

Подсчитаем общее количество символов в сообщении.


3 + 2 + 2 + 4 + 4 + 2 + 2 + 3 = 22

Длина получилась меньше, чем в первом варианте. Других вариантов нет, поэтому ответ будет 22.


Ответ: 22.

Задача (не сложная)

Для передачи по каналу связи сообщения, состоящего только из символов А, Б, В и Г, используется неравномерный (по длине) код: А-10, Б-11, В-110, Г-0. Через канал связи передаётся сообщение: ВАГБААГВ. Закодируйте сообщение данным кодом. Полученное двоичное число переведите в восьмеричный вид.


Решение:

В этой задаче ничего не сказано про условие Фано. Здесь уже все буквы закодированы, осталось написать сам код.

Задача сводится к переводу из двоичной системы в восьмеричную систему. На эту тему был урок на моём сайте.


Ответ: 151646.

На этом всё! Увидимся на следующих занятиях по подготовке к ЕГЭ по информатике.


Метод кодирования наборов клинических данных с помощью SNOMED CT | Медицинская информатика BMC и принятие решений

Наш эвристический метод кодирования SNOMED CT состоит из четырех частей: (a) идентификация элементов входных данных; (b) очистка элементов данных; (c) кодирование очищенных элементов данных; и (d) экспорт закодированных терминов в виде наборов терминов SNOMED CT. Обзор этого метода показан на рис. 2. В процессе кодирования используются три программных инструмента — алгоритм пакетного сопоставления, браузер CliniClue и Microsoft Excel.Алгоритм пакетного сопоставления сокращает объем ручной работы за счет автоматизации сопоставления очищенных элементов данных с помощью SNOMED CT, браузер CliniClue используется для ручного поиска концепций, а Microsoft Excel используется для просмотра результатов.

Рисунок 2

Обзор метода кодирования SNOMED CT .

Идентификация элементов входных данных

Идентификация потенциальных элементов данных для кодирования

Первым шагом является идентификация потенциальных элементов данных в источнике базы данных для кодирования.Существует три типа: элементы данных, кодированные значения и произвольные текстовые значения. Элементы данных относятся к имени полей ввода или могут рассматриваться как вопрос (например, «Диагноз», как в «Какой диагноз у пациента?»). Ответ может принимать форму закодированных значений или значений произвольного текста. Закодированные значения — это ответы, которые были предварительно определены и могут быть выбраны из списка выбора (например, «Рак легких» или «Рак молочной железы»). Если у пациента есть диагноз, который не был предварительно определен, дополнительные сведения о диагнозе могут быть записаны в свободном текстовом поле.

Подготовка списка элементов данных

При извлечении элементов данных важно вести контрольный журнал элементов данных, чтобы мы могли проследить происхождение терминов. Этот контрольный журнал должен включать имя таблицы, имя элемента данных, тип данных, а также код и описание, если это применимо. Скриншоты приложения, в котором используется элемент данных, также будут полезны для понимания контекста, в котором он используется.

Извлечение элементов данных

Имена элементов данных можно извлечь вручную, просмотрев схему базы данных и скопировав имя каждого элемента данных, или используя программу управления базой данных для экспорта схемы в текстовый файл или электронную таблицу.Элементы данных в базе данных можно классифицировать как те, которые относятся к клиническим встречам, идентификаторам или аудиторскому следу. Клинические встречи относятся к таким элементам данных, как имя пациента, диагноз и пол. Идентификаторы относятся к элементам данных, которые обычно являются первичными или внешними ключами таблиц. Журнал аудита относится к элементам данных, таким как информация об учетной записи пользователя, журналы аудита о том, кто добавил или отредактировал запись и когда она была изменена. Журнал аудита может также относиться к элементам данных, таким как статус закодированного значения, независимо от того, активно оно или нет.Маловероятно, что идентификаторы и элементы данных контрольного журнала могут быть закодированы, поскольку SNOMED CT не был разработан для этой цели.

Извлечение кодированных значений

Кодированные значения обычно хранятся в таблицах поиска. Эти поиски обычно представляют собой внешние таблицы в базе данных и отделены от приложения, хотя бывают случаи, когда закодированные значения встроены в само программное обеспечение. Если закодированные значения встроены в программный код, может потребоваться вручную скопировать каждое закодированное значение, если программное обеспечение не включает функцию экспорта.Для интерполяционных таблиц, которые записываются в базу данных, в зависимости от ее структуры кодированные значения могут быть записаны в одну таблицу или кодированные значения для каждого элемента данных могут быть в отдельных таблицах. При извлечении закодированных значений важно различать код (т. е. значение) и описание кода (т. е. значение значения). Например, «мужчина» — это кодовое описание, которое может быть представлено буквенным кодом «М» или числовым кодом, таким как 1. При кодировании терминов в SNOMED CT следует использовать кодовое описание, но важно иметь возможность свяжите описание кода с кодом.Кодирование закодированных значений с помощью SNOMED CT можно рассматривать как форму отображения.

Извлечение значений произвольного текста

Первым шагом в извлечении значений произвольного текста является определение исходной таблицы и имени элемента данных. Не каждый элемент данных со свободным текстом следует извлекать. Например, значения произвольного текста из таких элементов данных, как имена и адреса, не следует извлекать, поскольку они не могут быть закодированы в SNOMED CT. Пользователи должны просмотреть записи, чтобы определить, какие данные содержатся в элементе данных, поскольку это может быть неочевидно, если взглянуть только на имя элемента данных.После того как элемент данных идентифицирован, следует выделить уникальные термины и занести их частотность в таблицу. Наличие этой информации важно, потому что следует уделять больше внимания часто встречающимся терминам.

Сопоставление элементов данных

После того как элементы данных идентифицированы и извлечены из различных источников данных, их следует сопоставить и отсортировать по частоте. Поскольку очистка и кодирование данных — это очень трудоемкие процессы, термины следует сгруппировать в пакеты по частоте, чтобы можно было потратить больше времени на часто встречающиеся термины.Нет необходимости очищать каждый термин перед переходом к этапу кодирования, так как очистка данных может занять много времени. Ярлыки и уроки, извлеченные из предыдущей партии, должны быть применены к следующему раунду, чтобы улучшить процесс.

Очистка элементов данных

Процесс очистки данных обеспечивает согласованность и точность элементов данных. После того, как эти термины очищены, они, по сути, представляют собой терминологию интерфейса, которая помогает «поддерживать взаимодействие между поставщиками медицинских услуг и компьютерными приложениями.«[8] Три типа элементов данных требуют разной степени очистки данных. Кодированные значения требуют минимальной очистки, поскольку они уже проверены организацией, прежде чем они будут добавлены в качестве элементов списка выбора. С другой стороны, значения произвольного текста требуют наибольшая очистка, поскольку часто нет ограничений на то, что может быть записано.Элементы данных, которые необходимо кодировать, также требуют некоторой очистки, поскольку имена элементов данных могут содержать сокращения или акронимы, или, если используется несколько слов, пробелы удаляются или используются символы подчеркивания. для разделения слов.При очистке элементов данных важно вести контрольный журнал, чтобы можно было связать их с исходным термином. См. Рисунок 3 для обзора процесса очистки.

Рисунок 3

Обзор процесса очистки данных с примерами .

Разделение элементов данных

Могут быть случаи, когда закодированные значения или значения произвольного текста содержат несколько клинических состояний. Хотя можно закодировать эти клинические состояния в виде одного сложного выражения SNOMED CT, рекомендуется разбивать эти описания на атомарные понятия, поскольку их будет легче кодировать и они будут более полезными в запросах.Разделители, используемые для разделения нескольких клинических состояний, могут различаться в зависимости от базы данных. Распространенными разделителями являются точка с запятой (;), запятая (,) и точка (.). Кроме того, такие слова, как «и», «с» и символ амперсанда (&) могут использоваться в качестве разделителей для объединения нескольких понятий. Использование разделителей для разделения терминов может выполняться автоматически, хотя его следует проверять вручную, так как стандартного разделителя может не быть, и термины могут быть разделены неправильно. Например, точка может обозначать не конец предложения, а сокращение (например, аббревиатуру).г., «абд.» как в «брюшке»). Если закодированное или произвольное текстовое значение содержит клиническое состояние, смешанное с другими типами данных (например, числами, датами), их необходимо разделить. Например, во фразе «рак легкого начался в июне 2003 г.» необходимо разделить фактический диагноз (т. е. «рак легкого») от даты постановки диагноза (т. е. «июнь 2003 г.»). Элементы данных и закодированные значения, как правило, не требуют разделения терминов, поскольку они обычно представляют атомарные понятия. С другой стороны, значения произвольного текста часто включают несколько терминов.Следует отметить, что разделение элементов данных может быть затруднено, поскольку SNOMED CT включает некоторые понятия, относящиеся к нескольким клиническим состояниям, например «26298008|Диабетическая кома с кетоацидозом (расстройство)|». Разделение таких терминов может привести к потере семантики.

Фильтрация типов данных

SNOMED CT предназначен для кодирования клинических случаев, но не других типов данных, таких как имена, даты, числа и измерения. Хотя точную дату в карте пациента нельзя закодировать с помощью SNOMED CT, можно закодировать термин как прошлую историю болезни.Хотя было невозможно закодировать точную дату, например «1 января 1880 года», можно закодировать дату как прошлую историю болезни, установив «408731000 | Временной контекст (атрибут) |». как «410513005|В прошлом (значение квалификатора)|». Решение о том, следует ли кодировать даты как прошлую историю болезни, должно быть принято каждой организацией индивидуально.

Таким образом, эти типы данных должны быть отфильтрованы и не должны быть частью потенциального списка терминов, подлежащих кодированию. Исключенные данные должны храниться как часть информации о происхождении.Хотя исключенные типы данных не могут быть закодированы в SNOMED CT, их можно закодировать с помощью информационной модели, такой как эталонная информационная модель HL7. Для разделения терминов и фильтрации типов данных может потребоваться несколько раундов, чтобы отфильтровать все неподходящие термины.

Орфографические исправления

Одним из основных препятствий для лексического сопоставления являются орфографические ошибки. Все три типа элементов данных должны пройти алгоритм исправления правописания. Индекс слов, найденных в элементах данных, закодированных значениях и значениях произвольного текста, может быть сгенерирован и сравнен с индексом слов, найденным в SNOMED CT.Простое сравнение этих индексов может быстро сузить список потенциально проблемных слов. Элементы данных часто не содержат пробелов в своих именах или для разделения слов используются символы подчеркивания. Например, элемент данных «Имя» может быть помечен как «FName», «FirstName» или «First_Name». Эти формы уменьшат вероятность нахождения лексического соответствия.

Акронимы и аббревиатуры

Непоследовательное использование аббревиатур и аббревиатур также снижает успешное лексическое сопоставление.Например, «ca» может означать «рак», «карциному» или даже «кальций». Организации могут использовать аббревиатуры и аббревиатуры, понятные только местному населению. Необходимо расшифровывать все аббревиатуры и акронимы, чтобы устранить любую двусмысленность, а также повысить шансы нахождения лексических соответствий.

Вывод клинического контекста

Бывают случаи, когда необходимо сделать вывод о лежащем в основе клиническом состоянии для данного термина. Эта двусмысленность может быть результатом процесса разделения терминов на атомарные понятия, потери контекста или того, что исходный термин сам по себе был двусмысленным.Например, на рисунке 3 после предыдущих шагов очистки данных мы получили три основных понятия: «мелкоклеточная карцинома левого легкого», «головной мозг» и «метастазы в кости». Необходимо сделать вывод, что «мозг» относится к «метастазам в мозг», а не только к области мозга. Чтобы найти подходящую концепцию в SNOMED CT, трудно иметь дело с такими терминами, как «метастазы в головной мозг», «метастатический рак головного мозга» и «метастатическое заболевание головного мозга». Здесь следует задать вопрос: что это значит? Это первичная карцинома или новообразование головного мозга или это метастазы новообразования в головной мозг? SNOMED CT включает различные концепции для описания каждой ситуации, поэтому важно понимать значение используемого термина.Это можно сделать, посмотрев на контекст, сравнив клиническое утверждение с другими подобными утверждениями или посоветовавшись с клиницистом, сделавшим замечания. Другой пример потери контекста — это когда элементом данных является «Раковая область», то есть вопрос: «Где находится первичное новообразование?» Ответ может быть «мозг» или «кость», но при подготовке элемента данных для кодирования он должен отражать полный контекст, например, «рак мозга» или «рак кости». Разница между структурой тела и клиническим состоянием будет иметь значение при выборе концепции.

Исходная терминология интерфейса

Очищенные термины затем называются «исходной» терминологией интерфейса, поскольку они состоят из очищенных исходных терминов из локальной базы данных, которые должны быть закодированы в SNOMED CT. После процесса кодирования мы получим «окончательную» терминологию интерфейса, содержащую все предпочитаемые термины, используемые клиницистами при вводе данных. Эти предпочтительные термины могут включать в себя локальные очищенные термины (при условии, что процесс очистки гарантирует, что термины могут быть согласованы или стандартизированы за пределами местной организации) или их закодированные предпочтительные термины/синонимы SNOMED CT в зависимости от предпочтений клинициста.Если намерение состоит в том, чтобы заменить все локальные термины концепциями SNOMED CT в клинической системе, то эта терминология интерфейса может служить историческим указателем для облегчения перехода.

1.1 Кодирование очищенных элементов данных

Следующим шагом является процесс кодирования. На рис. 4 этот процесс показан в блок-схеме. Первый шаг — найти лексическое совпадение в пакетном режиме. Если совпадение найдено и концепт активен, термин может быть закодирован заранее согласованным концептом. Если концепция неактивна, будет предпринята попытка найти активную концепцию (т.э., статус понятия «текущий») через исторические отношения. Если в пакетном режиме совпадений не найдено, будет выполнен ручной поиск. Если термин не может быть сопоставлен с использованием предварительно согласованного понятия, будет предпринята попытка представить термин с помощью нескольких понятий или после согласования. Если никакое посткоординированное выражение не может адекватно представить термин, он считается некодируемым.

Рисунок 4

Блок-схема процесса кодирования .

Лексическое сопоставление терминов

Сопоставление лексических строк — это наш метод поиска понятий SNOMED CT.Есть два шага. Во-первых, это пакетный режим, в котором элементы данных автоматически сопоставляются с использованием алгоритма пакетного сопоставления. Во-вторых, это ручной режим, в котором все выдающиеся несопоставленные термины сопоставляются вручную с помощью браузера CliniClue.

Пакетный режим

Алгоритм пакетного сопоставления представляет собой набор запросов на языке структурированных запросов (SQL), которые используются для поиска терминов SNOMED CT. Алгоритм пакетного сопоставления берет список элементов данных, нормализует эти термины и сопоставляет как исходные элементы данных, так и нормализованные термины с исходными описаниями SNOMED CT, а также с нормализованным набором описаний SNOMED CT.Процесс нормализации [7] включает в себя удаление знаков препинания, префиксов, стоп-слов, исключающих слов, а также определение основы (поиск базовой (корневой) формы словоизменяемого слова) в таблице словоизменений лексикона UMLS SPECIALIST [9]. Пунктуация, стоп-слова и слова-исключения исключаются, поскольку они могут снизить вероятность нахождения лексических соответствий. Список используемых стоп-слов и исключенных слов рекомендован SNOMED CT [10]. Удаление этих слов помогает улучшить результаты, а также время, необходимое для поиска совпадений.Алгоритм пакетного сопоставления может возвращать результаты по точному совпадению, совпадению всех слов или частичному совпадению. Точные совпадения являются золотым стандартом и имеют место, когда все слова найдены в описании SNOMED CT и расположены в том же порядке, что и элемент данных. Сопоставление всех слов обычно дает хорошие результаты и происходит, когда все слова в элементе данных находятся в описании SNOMED CT, хотя и не обязательно в той же последовательности, что и элемент данных. Описание SNOMED CT может содержать дополнительные слова. Однако, если элементы данных короткие или слова общие, может быть много потенциальных совпадений.Частичные совпадения наименее точны, так как должно присутствовать только одно слово.

Целью использования алгоритма пакетного сопоставления является оптимизация процесса поиска потенциальных концепций SNOMED CT, поскольку поиск каждого термина вручную занимает много времени. Все результаты алгоритма пакетного сопоставления должны быть проверены вручную, чтобы убедиться, что выбраны соответствующие концепции.

Ручной режим

Термины, которые невозможно закодировать в пакетном режиме, ищутся вручную с помощью браузера CliniClue.При ручном поиске часто используются синонимы и другие фразы в попытке найти релевантные концепции SNOMED CT. Например, SNOMED CT не включает понятие «немеланома кожи». Вместо этого можно использовать другие синонимы или более общие термины, такие как «кожное заболевание», «лентиго», «приобретенный меланоцитарный невус». Если предварительно согласованная концепция не может быть найдена, будет предпринята попытка постсогласования.

Общие указания по выбору понятий из иерархий

Мы разработали несколько основных указаний по выбору понятий, если должно быть несколько точных совпадений.Чаще всего это относится к понятиям из «404684003|Клиническое заключение (находка)|». иерархия и подтипы «118956008 | Структура тела, измененная по сравнению с исходной анатомической структурой (морфологическая аномалия) |». Например, термин «перелом» может относиться к описаниям «125605004|Перелом|». или «72704001|Перелом|». Глядя на полное название, первое относится к «125605004|Перелом кости (заболевание)|». в то время как последний относится к «72704001 | Перелом (морфологическая аномалия) |».Клинические данные, как правило, следует предпочесть концепции морфологической аномалии. При ближайшем рассмотрении видно, что «72704001|Перелом (морфологическая аномалия)|» является определяющим атрибутом «125605004|Перелом кости (заболевание)|» и связывается с использованием атрибута концептуальной модели «116676008|Ассоциированная морфология (атрибут)|». Если есть только концепция морфологической аномалии, ее следует посткоординировать с фокусной концепцией «64572001|Болезнь (расстройство)|». и связан с атрибутом концептуальной модели «116676008|Ассоциированная морфология (атрибут)|».Другим примером является термин «морфин», который в SNOMED CT может относиться либо к «73572009|Морфин (продукт)|». или «373529000|Морфин (вещество)|». Определяющие атрибуты показывают, что «73572009|Морфин (продукт)|» связано с «373529000|Морфин (вещество)|» через атрибут концептуальной модели «127489000|Имеет активный ингредиент (атрибут)|». Если в контексте морфина речь идет о лекарствах или опиоидах, следует использовать концепцию продукта.

Исторические отношения

Исторические отношения в SNOMED CT используются для связывания неактивных понятий с активными понятиями.Существует шесть исторических отношений: «14

08|МОЖЕТ БЫТЬ A (атрибут)|», «384598002|ПЕРЕМЕЩЕНО ИЗ (атрибут)|», «370125004|ПЕРЕМЕЩЕНО В (атрибут)|», «370124000|ЗАМЕНЕНО (атрибут)|» , «168666000|ТО ЖЕ КАК (атрибут)|» и «15

00|WAS A (атрибут)|». При лексическом сопоставлении ищутся все концепты независимо от их статуса. Когда извлекается неактивное понятие, исторические отношения могут указывать на активное понятие. Если извлеченный концепт неактивен, исторические отношения используются для поиска активного концепта.Результаты алгоритма пакетного сопоставления необходимо проверять вручную, чтобы гарантировать выбор соответствующих концепций.

Предварительно согласованные условия

Существуют случаи, когда концепция SNOMED CT представляет несколько результатов. Примером может служить «тошнота и рвота». Хотя этот термин можно разделить на два отдельных атомарных термина и закодировать отдельно как «422587007 | Тошнота (обнаружение) |» и «422400008|Рвота (расстройство)|», в SNOMED CT используется единое понятие «16932000|Тошнота и рвота (расстройство)|».Всякий раз, когда доступна заранее согласованная концепция, она должна быть первым выбором. Если предварительно согласованное понятие является примитивным понятием, альтернативой является создание постсогласованного выражения, чтобы обеспечить запись необходимой семантики. Причина в том, что термины, закодированные примитивными понятиями, труднее запрашивать и проверять на эквивалентность.

Постсогласованные термины

Бывают случаи, когда предварительно согласованные понятия не передают адекватно значение элемента данных.Затем необходимо посткоординировать несколько концепций. Различают три вида посткоординации: комбинирование, квалификацию и уточнение. Комбинация означает объединение двух понятий. Квалификация относится к добавлению к понятию квалифицирующей характеристики. Уточнение похоже на квалификацию, но вместо добавления уточняющей характеристики к понятию выбирается подтип определяющей характеристики, связанной с концепцией. При создании посткоординированных выражений важно придерживаться рекомендаций концептуальной модели SNOMED CT [11].Однако бывают случаи, когда может оказаться необходимым использовать неутвержденные или несанкционированные атрибуты для уточнения понятий значениями квалификатора, которые в противном случае были бы непригодны для использования. В SNOMED CT есть области, которые не были полностью определены и требуют дальнейшего изучения того, как работать с кодированием определенных типов клинических данных. Следует соблюдать осторожность при использовании неутвержденных атрибутов, поскольку их статус может измениться в новых выпусках, что может потребовать модификации выражений. Поэтому важно представить новые атрибуты в Редакционный совет IHTSDO — Комитет по содержанию, чтобы обеспечить признание этих расширений на международном уровне.Следует отметить, что в настоящее время только семь иерархий верхнего уровня имеют право на посткоординацию. Поэтому не каждая концепция SNOMED CT может быть скоординирована с помощью концептуальной модели.

Некодируемые термины

Если никакое предварительно согласованное понятие или постсогласованное выражение не могут адекватно представить элемент данных и если нет желания создавать расширение, этот термин помечается как некодируемый.

Экспорт закодированных терминов в виде наборов терминов SNOMED CT

После того, как все термины прошли процесс кодирования, их можно разделить на закодированные и некодированные термины.Затем закодированные термины используются для создания набора ссылок SNOMED CT и «окончательной» терминологии интерфейса. Незакодированные термины, которые встречаются часто, но не имеют эквивалента SNOMED CT, могут быть отправлены для включения в будущий выпуск SNOMED CT через набор расширений SNOMED CT. Другие некодированные термины, которые встречаются редко, могут быть классифицированы как некодируемый набор терминов, если они не должны представляться как часть набора расширений. Сводка типов кодирования выходных данных процесса очистки данных показана на рисунке 5.

Рисунок 5

Типы кодирования результатов очистки данных .

Закодированные термины

Набор ссылок SNOMED CT

Механизм набора ссылок в SNOMED CT — это один из методов фильтрации и упорядочения понятий для конкретных доменов или вариантов использования. Путем объединения концепций из предметной области или варианта использования в качестве справочного набора эти концепции становятся переносимыми и могут распространяться среди других организаций, имеющих аналогичные потребности [10].

Набор терминологии интерфейса

Набор терминологии интерфейса относится к закодированным локальным терминам и соответствующим им терминам и выражениям SNOMED CT.Набор интерфейсной терминологии может быть распределен в различных форматах и ​​структурах в зависимости от целей и потребностей. Например, его можно распространять как единую таблицу с терминологией интерфейса в одном столбце и целевым выражением SNOMED CT в другом столбце. Версия релиза SNOMED CT, длинные нормальные формы и короткие нормальные формы также должны быть записаны. Запись длинных и коротких нормальных форм может повысить производительность тестирования эквивалентности и включения, а также проверки изменений между каждым выпуском SNOMED CT.

Незакодированные термины

Набор расширений SNOMED CT

Механизм расширения SNOMED CT позволяет организациям разрабатывать свои собственные концепции SNOMED CT «в соответствии со структурами данных и рекомендациями по разработке, применимыми к SNOMED CT» [12], запрашивая семизначный идентификатор пространства имен из IHTSDO. Организация также должна представить новые концепции для возможного включения в основные выпуски SNOMED CT.

Некодируемый набор терминов

Неизбежно будут существовать некодируемые термины.Причины включают: (а) неоднозначные термины, которые не могут быть прояснены; (b) редкое появление терминов, которые не оправдали бы добавления в набор расширений; (c) имена элементов данных, которые относятся к административным целям или журналам аудита. Кроме того, в зависимости от объема исследования и его графика времени может не хватить, когда необходимо закодировать большой объем данных, особенно свободные тексты, требующие очистки. Эти термины должны быть объединены в некодируемый набор терминов, чтобы их можно было повторно изучить позже для получения решения.

предварительная подготовка для клинической обработки естественного языка с приложениями к злоупотреблению психоактивными веществами

J Am Med Inform Assoc. 2019 ноябрь; 26 (11): 1272–1278.

Дмитрий Длигач

1 Департамент компьютерных наук, Чикагский университет Лойолы, Чикаго, Иллинойс, США,

2 Департамент общественного здравоохранения, Медицинская школа Стрича, Университет Лойола, Мэйвуд, Иллинойс, США,

3 Центр результатов исследований в области здравоохранения и информатики, Университет Лойолы, Мэйвуд, Иллинойс, США,

Маджид Афшар

2 Департамент общественного здравоохранения, Медицинская школа Стрича, Университет Лойола, Мэйвуд, Иллинойс, США,

3 Центр результатов исследований в области здравоохранения и информатики, Университет Лойолы, Мэйвуд, Иллинойс, США,

Тимоти Миллер

4 Программа вычислительной информатики здравоохранения (CHIP), Бостонская детская больница и Гарвардская медицинская школа, Бостон, Массачусетс, США,

1 Департамент компьютерных наук, Чикагский университет Лойолы, Чикаго, Иллинойс, США,

2 Департамент общественного здравоохранения, Медицинская школа Стрича, Университет Лойола, Мэйвуд, Иллинойс, США,

3 Центр результатов исследований в области здравоохранения и информатики, Университет Лойолы, Мэйвуд, Иллинойс, США,

4 Программа вычислительной информатики здравоохранения (CHIP), Бостонская детская больница и Гарвардская медицинская школа, Бостон, Массачусетс, США,

Автор, ответственный за переписку: Дмитрий Длигач, доктор философии, факультет компьютерных наук, Университет Лойола в Чикаго, 1052 West Loyola Avenue, Чикаго, Иллинойс 60626, США (ude.cul.sc@dd)

Поступила в редакцию 28 февраля 2019 г.; Пересмотрено 6 апреля 2019 г.; Принято 28 апреля 2019 г.

Copyright © Авторы, 2019 г. Опубликовано Oxford University Press от имени Американской ассоциации медицинской информатики. Все права защищены. Чтобы получить разрешения, отправьте электронное письмо по адресу: [email protected]Эта статья цитируется в других статьях PMC.

Abstract

Цель

Наша цель — разработать алгоритмы кодирования клинического текста в представления, которые можно использовать для различных задач фенотипирования.

Материалы и методы

Получение больших наборов данных для использования высоковыразительных методов глубокого обучения затруднено при клинической обработке естественного языка (НЛП). Мы решаем эту проблему, предварительно обучая кодировщик клинического текста на данных платежного кода, которые обычно доступны в изобилии. Мы исследуем несколько архитектур нейронных кодировщиков и используем текстовые представления, полученные от этих кодировщиков, в контексте задач классификации клинического текста. Хотя нашей конечной целью является изучение универсального кодировщика клинического текста, мы также экспериментируем с обучением кодировщика, специфичного для фенотипа.Универсальный кодировщик был бы более практичным, но кодировщик, специфичный для фенотипа, мог бы лучше работать для конкретной задачи.

Результаты

Мы успешно обучили несколько кодировщиков клинических текстов, установили новый уровень техники для данных о сопутствующих заболеваниях и наблюдаем хороший прирост производительности по данным о злоупотреблении психоактивными веществами.

Обсуждение

Мы считаем, что предварительное обучение с использованием кодов биллинга является многообещающим направлением исследований. Представления, генерируемые этим типом предварительного обучения, обладают универсальными свойствами, поскольку они очень полезны для многих задач фенотипирования.Предварительное обучение для конкретного фенотипа является жизнеспособным путем обмена универсальностью предварительно обученного кодировщика на лучшую производительность в конкретной задаче фенотипирования.

Выводы

Мы успешно применили наш подход ко многим задачам фенотипирования. В заключение мы обсудим потенциальные ограничения нашего подхода.

Ключевые слова: обработка естественного языка, биомедицинская информатика, фенотипирование на несколько узко определенных задач, таких как ответы на вопросы 1 и машинный перевод. 2 Тем не менее, для этого успеха потребовались десятки или сотни тысяч помеченных примеров. Получение аннотированных наборов данных такого размера невозможно для большинства задач клинического НЛП из-за высокой стоимости ручной маркировки. Хорошо известные клинические тесты НЛП, такие как Integrating Biology and the Bedside (i2b2) распознавание сопутствующего ожирения, обнаружение статуса курения i2b2 и недавние национальные клинические испытания НЛП (https://n2c2.dbmi.hms.harvard.edu), имеют только сотни примеров на фенотип, что затрудняет использование высоковыразительных методов глубокого обучения.

Эта проблема нехватки обучающих данных решается в компьютерном зрении с помощью предварительной подготовки классификаторов на массивных наборах данных, таких как ImageNet 3 , 4 , и последующего уточнения их для более специализированной задачи классификации. Идея состоит в том, что большие наборы данных обучают ранние слои глубокой сети распознавать универсальные примитивы зрения, которые должны применяться в разных задачах (линии различной ориентации, края, основные формы и т. д.). представления таких единиц значения, как слова и короткие фразы, с использованием таких методов, как word2vec 5 и GloVe. 6 Однако эти методы ориентированы только на нижний уровень в языковой иерархии, с новыми способами кодирования языковых представлений более высокого уровня, необходимых для большинства задач НЛП.

В последнее время подходы на уровне слов были распространены на предложения. 7 В прошлом году был предпринят ряд успешных попыток продолжить движение вверх по этой иерархии сложности языка путем предварительной подготовки текстовых кодировщиков с использованием целей языкового моделирования 8–11 ; методы кодирования текста, такие как BERT 10 и ULMfit 9 , могут представлять предложения или даже блоки размером с абзац.В результате этих работ языковое моделирование теперь рассматривается как эквивалент предварительного обучения ImageNet в НЛП. Мы видим, что аналогия с ImageNet далека от совершенства, потому что ImageNet имеет настоящий источник контроля, а языковое моделирование самоконтролируется (т. е. обучается без ручных меток; аналогия с компьютерным зрением должна включать прогнозирование искусственно удаленных пикселей изображения). . В этой работе мы находим доказательства того, что клиническое НЛП обладает уникальными возможностями для исследования гораздо более близкой аналогии с предварительным обучением ImageNet, которое проявляется в предсказании кода счета.Поскольку коды счетов доступны в изобилии в медицинских учреждениях и связаны с сущностями уровня документа, такими как клинические встречи, мы можем перейти от кодирования уровня предложения к уровню документа с помощью контролируемого предварительного обучения. До этой работы исследования репрезентативного обучения были сосредоточены на единицах размером с предложение или абзац, и мало исследований было посвящено кодированию более крупных единиц, таких как документы и встречи.

В нашей предыдущей работе, 12 , мы представили простой текстовый кодировщик, который использует понятия Единой медицинской языковой системы (UMLS) в качестве входных данных и обучается с использованием цели предсказания кода счета.Кодер впоследствии используется для создания представлений пациентов, которые кратко фиксируют информацию о пациенте. В этой последующей работе мы уточняем эту идею, расширяем ее до необработанного текста и вводим новый кодировщик, специфичный для фенотипа, который позволяет обменять общность результирующих текстовых представлений на лучшую производительность в конкретной задаче фенотипирования.

В настоящее время существует 2 стратегии развертывания предварительно обученных моделей: извлечение признаков и точная настройка. При извлечении признаков (например, ELMo, 8 Flair 11 ) обучение разделяется на 2 независимых процесса: изучение (1) общей модели того, как язык работает для кодирования предложений или документов (предварительное обучение) и (2) как классифицировать документы, закодированные с помощью такой модели.Говоря конкретно, веса предобучающей сети замораживаются до того, как она научится выполнять последующую задачу. При тонкой настройке (например, BERT, 10 GPT, 13 ULMFit 9 ) предварительное обучение работает так же, но обучение нижестоящей задаче может обновить то, как сеть думает, как работает язык. Другими словами, веса предобучающей сети могут обновляться на втором этапе. Эта работа сосредоточена на извлечении функций, поскольку наша предварительная работа показывает, что тонкая настройка менее воспроизводима (подробнее см. Обсуждение).

Нашу работу также можно рассматривать как изучение представлений пациентов, которые являются результатом работы нашего текстового кодировщика. Большая часть недавней работы в области клинической информатики была сосредоточена на использовании структурированных данных ЭУЗ, таких как коды Международной классификации болезней (МКБ), коды процедур и заказы на лекарства для изучения представлений пациентов. 14–19 DeepPatient, 17 , одна из немногих систем обучения представлению пациентов, ориентированных на текст ЭУЗ, которая не только работает с различными функциями, включая структурированную информацию ЭУЗ, но также использует тематическое моделирование как способ представления текста.Чтобы изучить представления пациентов, они используют модель, состоящую из сложенных автокодировщиков шумоподавления. Полученные представления используются для прогнозирования кодов МКБ, которые появятся в следующие 30, 60, 90 и 180 дней. В отличие от предыдущих работ, Sushil et al. 20 фокусируется исключительно на тексте EHR для изучения представлений пациентов с использованием неконтролируемых методов, таких как многоуровневые автокодировщики шумоподавления и doc2vec. 7 Они обнаружили, что выученные представления превосходят традиционные представления с набором слов, когда доступно несколько обучающих примеров и что целевая задача не опирается на сильные лексические особенности.Как и Sushil et al, 20 , в нашей работе используются только текстовые переменные.

Существующая работа по кодированию представлений пациентов была сосредоточена на прогнозировании удобства (задачи, для которых доступны закодированные данные), такие как прогнозирование смертности или коды будущих счетов. Мы оцениваем наш кодировщик на нескольких задачах фенотипирования, используя помеченные наборы данных. Во-первых, в интересах воспроизводимости мы оцениваем общедоступные данные о сопутствующих заболеваниях i2b2, устанавливая новый уровень техники.Мы также применяем наш энкодер к двум новым задачам, связанным со злоупотреблением психоактивными веществами, предсказывая злоупотребление опиоидами и алкоголем у пациентов с травмами.

МАТЕРИАЛЫ И МЕТОДЫ

Кодировщик клинических текстов на уровне документов

С появлением электронных медицинских карт (ЭМК) в медицинских учреждениях стали доступны огромные объемы данных о пациентах. EHR состоит из 2 различных типов данных: (1) структурированные данные, такие как результаты лабораторных исследований, коды счетов и заказы на лекарства, и (2) неструктурированные данные, такие как клинические записи.Наша цель — обучить кодировщика клинического текста, и мы видим, что структурированные данные потенциально представляют собой хороший источник контроля. Кодер, который учится сопоставлять текст заметок со структурированными данными, при обучении на больших объемах данных может захватывать ключевые элементы информации, представленной в тексте заметок. Текстовые представления, полученные из этого кодировщика, при использовании для последующих задач машинного обучения, таких как автоматическое фенотипирование (), вероятно, улучшат производительность классификатора, поскольку они обладают репрезентативной способностью большого набора данных.Обсуждаемые нами методы можно рассматривать как репрезентативное обучение. В этой работе мы сосредоточимся на использовании кодов выставления счетов в качестве источника надзора, которые обычно имеются в изобилии в медицинском учреждении.

Мы обучаем нейронную сеть предсказывать коды счетов по тексту клинических обращений. После окончания обучения сохраняем модель. Мы используем сохраненную модель в качестве текстового кодировщика для создания плотных представлений заметок в целевой задаче. Эти представления можно использовать для обучения классификатора.

Мы изучаем несколько нейронных архитектур, которые работают непосредственно с текстом и простыми именованными объектами, автоматически извлекаемыми из текста. Первый кодировщик аналогичен тому, который использовался в нашей предыдущей работе, и представляет собой сеть глубокого усреднения (DAN), которая берет набор уникальных идентификаторов концепции UMLS (CUI), сопоставляет их с их 300-мерными вложениями, усредняет их и проецирует. их в предпоследний полносвязный скрытый слой, по существу кодируя вход как плотный вектор фиксированного размера.Во время предварительной подготовки конечный (выходной) сетевой уровень состоит из n сигмовидных единиц, каждая из которых представляет уникальный код выставления счетов (). Архитектура, представленная в Dligach and Miller 12 , обучается на уровне пациента, что неоптимально, поскольку коды выставления счетов назначаются на уровне встречи; единицей классификации в этой работе является единичное столкновение. CUI извлекаются из заметок путем сопоставления фрагментов клинически значимого текста (например, одышка, аппендэктомия, МРТ [магнитно-резонансная томография]) с записями в метатезаурусе UMLS.CUI можно легко извлечь с помощью существующих инструментов, таких как система извлечения знаний для клинического анализа текста Apache (cTAKES) (http://ctakes.apache.org). Преимуществом этой архитектуры является чрезвычайно быстрое обучение, что способствует эффективному исследованию пространства гиперпараметров.

Сеть глубокого усреднения, которая принимает в качестве входных данных встраивание уникального идентификатора концепции (CUI) и обучена прогнозированию кодов выставления счетов.

Второй энкодер — сверточная нейронная сеть (CNN), работающая непосредственно с текстом заметок.За слоем внедрения следуют сверточный слой, слой максимального пула и полносвязный слой. Выходной уровень идентичен упомянутой ранее архитектуре DAN (). В предварительной работе мы также экспериментировали с архитектурами на основе рекуррентных нейронных сетей (RNN), но их производительность была ниже как с точки зрения точности, так и скорости, вероятно, из-за сложности захвата удаленных зависимостей.

Сверточная нейронная сеть, принимающая в качестве входных данных встраивания слов и обученная предсказывать коды счетов.

Оба кодировщика обучены с использованием бинарной функции кросс-энтропийных потерь и оптимизатора RMSProp для совместного прогнозирования кодов выставления счетов. Чтобы использовать кодировщик пациентов в качестве экстрактора признаков, мы замораживаем веса сети, проталкиваем текст заметок через сеть и собираем вычисленные значения узлов скрытого слоя, таким образом получая плотный вектор, представляющий входной текст, который может быть используется в качестве входных данных для любой задачи машинного обучения (например, для обучения контролируемого классификатора).

Как уже отмечалось, наши текстовые кодировщики обучены совместно предсказывать все коды счетов, связанные с клиническим случаем.Кодировщик, обученный таким образом, при наличии достаточного количества данных должен фиксировать широкий спектр клинической информации, которая существует во входном тексте, делая представления, которые генерирует кодировщик, подходящими для прогнозирования широкого диапазона результатов. Хотя нашей конечной целью является изучение универсального кодировщика клинического текста, мы также наблюдаем, что можно обучить кодировщик, специфичный для фенотипа, ограничив цели прогнозирования кодов счетов набором, соответствующим конкретному фенотипу.В то время как универсальный кодировщик может быть более практичным, поскольку его необходимо предварительно обучить только один раз, кодировщик, специфичный для фенотипа, потенциально может работать лучше для конкретного заболевания. Мы обучаем 2 текстовых кодировщика, специфичных для фенотипа, для определения статуса злоупотребления психоактивными веществами, изменяя цель обучения кодировщика, чтобы предсказывать только коды, связанные с 2 сценариями злоупотребления психоактивными веществами: злоупотреблением алкоголем и опиоидами. Этот подход можно рассматривать как своего рода трансферное обучение 21 , поскольку модель учится кодировать знания, полученные из больших объемов данных исходной задачи (прогнозирование кода счета), чтобы впоследствии применить их к целевой задаче (злоупотребление психоактивными веществами).

Данные

Мы предварительно обучаем все текстовые кодировщики, используя корпус Медицинского информационного витрины для интенсивной терапии III (MIMIC III). 22 MIMIC III содержит заметки и структурированные данные для более чем 40 000 пациентов медицинского центра Beth Israel Deaconess в интенсивной терапии. Поскольку коды выставления счетов назначаются на уровне встречи, мы используем встречу с пациентом в качестве единицы классификации при обучении кодировщика; это отличается от нашего предыдущего подхода, который работал на уровне пациента. Наша единица классификации, таким образом, представляет собой все заметки о столкновении, объединенные в единый документ, который кодировщик учится сопоставлять с кодовыми целями МКБ-9 и Текущей процедурной терминологии.Мы обрабатываем эти документы с помощью cTAKES для извлечения CUI UMLS. cTAKES — это библиотека с открытым исходным кодом для обработки клинических текстов с эффективным компонентом поиска по словарю для выявления упоминаний клинически значимых фрагментов текста.

Чтобы ускорить обучение кодировщиков, мы ограничиваем максимальную длину ввода, устанавливаем порог минимального количества примеров, необходимых для использования кода оплаты в качестве цели прогнозирования, и сворачиваем коды оплаты по их общим категориям. Этот последний шаг в настоящее время необходим, чтобы сделать обучение жизнеспособным, потому что существуют тысячи уникальных кодов оплаты.В частности, для кодировщиков DAN и CNN мы (1) объединяем все коды МКБ-9 и текущей процедурной терминологии в их более общую категорию (например, первые 3 цифры для диагностических кодов МКБ-9), (2) отбрасываем все появляющиеся токены. менее 100 раз, (3) отбрасывать встречи с более чем 25 000 токенов и (4) отбрасывать все свернутые коды выставления счетов, которые имеют менее 500 примеров. Эта предварительная обработка приводит к набору данных из 58 011 встреч, сопоставленных в общей сложности с 276 категориями. Для кодировщиков, специфичных для фенотипа, мы получаем коды МКБ-9 для злоупотребления алкоголем (28 кодов) и коды МКБ-9 для злоупотребления опиоидами (21 код) и используем их в качестве целей прогнозирования.Группы кодов МКБ для злоупотребления алкоголем и опиоидами были основаны на классификации категорий болезней Агентства медицинских исследований и качества. 23 , 24 Мы случайным образом разделили этот набор данных на обучающий набор (80%) и проверочный набор (20%) для настройки гиперпараметров модели.

Для оценки мы используем общедоступный набор данных по проблеме ожирения i2b2, 25 , который состоит из 1237 выписок из Partners HealthCare, аннотированных в отношении ожирения и его 15 наиболее распространенных сопутствующих заболеваний.Таким образом, каждый пациент был отнесен к 16 различным категориям. Мы сосредоточимся на более сложной интуитивной задаче, содержащей 3 типа меток (присутствующие, отсутствующие и сомнительные). Диагноз аннотировался как имеющийся, если о нем можно было сделать вывод даже в тех случаях, когда он не был явно упомянут в тексте, что требовало принятия сложных решений и выводов и делало эту задачу особенно сложной. В этой оценке наши датчики оцениваются в 16 различных задачах классификации.

Кроме того, мы используем 2 внутренних набора данных о злоупотреблении психоактивными веществами, разработанных в Медицинском центре Университета Лойолы.Набор данных о злоупотреблении опиоидами является частью более масштабных усилий по созданию вручную аннотированных данных о злоупотреблении психоактивными веществами. Набор данных был аннотирован подготовленными рецензентами по употреблению психоактивных веществ и в соответствии с критериями Национального исследования по употреблению наркотиков и здоровья для немедицинского употребления опиоидов (пациенты, принимающие опиоиды по причинам, отличным от предписанных). 26 На момент проведения описанных здесь экспериментов было доступно 413 пациентов (208 положительных случаев и 205 отрицательных случаев), аннотированных в отношении злоупотребления опиоидами.Набор данных о злоупотреблении алкоголем включал 1423 пациента (329 положительных и 1094 отрицательных случая). Все пациенты прошли тест на выявление расстройств, связанных с употреблением алкоголя, утвержденный инструмент скрининга злоупотребления, и помеченные случаи соответствовали критериям, если были соблюдены баллы ≥ 5 для женщин и ≥ 8 для мужчин. 27 Оба набора данных были разделены на обучающие (80%) и тестовые (20%). Обратите внимание, что цели прогнозирования для обоих наборов данных не являются кодами МКБ: для данных об опиоидах ярлыки были присвоены вручную обученными рецензентами, в то время как для данных об алкоголе для получения ярлыков использовался опрос пациентов. 28

Мы подчеркиваем, что данные пациентов, которые мы используем в нашей оценке, поступают из медицинских учреждений (Partners HealthCare и Loyola), которые отличаются от того, на котором обучались кодировщики (Beth Israel). Эта оценка представляет собой сложную задачу, но она представляет собой настоящую проверку надежности предлагаемых методов.

Эксперименты

до Обучение : Мы начинаем с предварительной подготовки двух кодировщиков клинического текста на уровне документа: DAN, который принимает CUI в качестве входных данных, и CNN с максимальным объединением, который принимает слова в качестве входных данных.Гиперпараметры обоих кодировщиков настраиваются на проверочный набор путем оптимизации оценки макроса F1 с использованием случайного поиска. 29 Важно отметить, что все кодировщики настраиваются независимо от наборов данных, на которых мы их оцениваем; т. е. мы настраиваем кодировщики, используя данные MIMIC, но оцениваем их по сопутствующим заболеваниям i2b2 и наборам данных о злоупотреблении психоактивными веществами Лойолы. Обратите внимание, что наша цель не состоит ни в достижении наилучшей возможной производительности прогнозирования кода биллинга на MIMIC, ни в формальной оценке производительности задачи прогнозирования кода биллинга.Таким образом, мы не выделяем отдельные наборы для проверки и тестирования. Как только кодировщики достигают приемлемого уровня производительности, мы объединяем наборы для обучения и проверки и переобучаем их.

Мы обучаем кодировщик DAN с 5000 скрытых единиц в течение 16 эпох со скоростью обучения 0,001 и размером пакета 16, определенным случайным поиском. Мы обучаем кодировщик CNN с 500 скрытыми единицами и 1024 фильтрами размера 5 для 8 эпох со скоростью обучения 0,001 и размером пакета 8 с использованием оптимизатора AdaDelta, также определяемого случайным поиском.

Оценка кодировщика : Чтобы оценить качество кодировщика, мы используем его как экстрактор признаков для создания текстовых представлений, которые мы можем использовать в качестве входных данных для классификатора линейной машины опорных векторов (SVM). Чтобы получить вектор, представляющий набор заметок, мы замораживаем веса сети и проталкиваем текст заметок через кодировщик, собирая вычисленные значения единиц одного из промежуточных слоев сети. Для кодера DAN это скрытый слой, содержащий 5000 единиц.Для кодировщика CNN мы экспериментируем с использованием либо максимального объединяющего слоя (1024 единицы), либо скрытого полносвязного слоя (500 единиц) для кодирования текста заметок. Кроме того, мы оцениваем представления, полученные от кодировщиков, в сочетании с традиционными разреженными представлениями «мешок слов» и «мешок CUI», предполагая, что плотные представления содержат информацию о пациенте в целом, а разреженные признаки могут содержать явный сигнал. С этой целью мы объединяем плотные векторы, полученные из кодировщика, с разреженными векторами набора слов или набора CUI.Затем мы обучаем классификатор SVM, используя эти векторы в качестве входных данных.

Например, чтобы запустить оценку данных о сопутствующих заболеваниях i2b2, мы получаем текстовые представления пациента от кодировщика CNN, вводя текст заметок пациента в кодировщик. Вместо чтения предсказаний кода классификатора мы собираем значения узлов скрытого слоя, формируя 500-мерный плотный вектор. Затем мы обучаем мультиклассовый классификатор SVM для каждого заболевания в данных сопутствующих заболеваний, создавая 16 классификаторов.После испытания на ожирение i2b2 модели оцениваются с использованием макроточности, отзыва и показателей F1. 25 Мы сообщаем среднюю макроточность, полноту и F1 по всем 16 заболеваниям для каждой системы.

Мы сравниваем все модели с базовым классификатором SVM, который мы обучаем для каждого фенотипа с набором признаков. Мы используем 10-кратную перекрестную проверку на обучающем наборе для настройки параметров классификатора перед оценкой на тестовом наборе.

Фенотип-специфический до Обучение : В дополнение к обучению кодировщика предсказывать все коды биллинга, связанные с встречей в корпусе MIMIC, мы также оцениваем эффективность специфического для фенотипа предварительного обучения, ограничивая набор целевых кодов МКБ-9 только теми, которые связаны с целевой фенотип.Мы определяем коды МКБ-9 для злоупотребления алкоголем и опиоидами и обучаем кодировщик DAN для каждого из этих состояний. Затем эти кодеры обрабатываются как экстракторы признаков и оцениваются, как описано, перед использованием наборов данных о злоупотреблении опиоидами и алкоголем с точки зрения площади под кривой характеристик работы приемника.

РЕЗУЛЬТАТЫ

Производительность линейного классификатора для нашей первой оценочной задачи, проблемы сопутствующих заболеваний i2b2, находится в . В строке 1 показана производительность традиционного базового уровня — линейного классификатора SVM, обученного с помощью функций набора CUI.Строка 2 (DAN prev ) — это наша предыдущая система 12 , в которой используется кодировщик уровня пациента на основе DAN (включен для сравнения). Во всех строках 3–8 используются различные кодировщики нейронных сетей на уровне встречи.

Таблица 1.

1

Средний Средний классификатор SVM Classifier на 16 Интеграция биологической биологии и оздоровительной комбинезон Фенотипированные задачи

Encoder SVM вход SVM вход MACRO P MACRO R MACRO F1 нет нет пакет с CUI 0.733 0.65 0.65 0.675 Dan Dan CUIS 0,709 0.725 0.715 CNN слова CNN Скрытый слой 0.719 0,723 0.718 0.718 CNN Слова Слой + Сумка-of-Cuis 0.719 0.723 0,718 CNN Words CNN Max Poowning Slood 0.737 0,726 0.726 0.729 CNN Слова CNN Max Max Booking Stayer + Bag-The Sure 0,737 0.726 0.729 Dan CUIS Dan Hidden Layer 0.752 0.752 0.751 0.751 0.746 Dan CUIS CUIS 0.784 0.744 0.755

в и, мы показываем производительность Классификатор SVM для наборов данных о злоупотреблении алкоголем и опиоидами.Первая строка в этих таблицах показывает производительность классификатора SVM, обученного с использованием набора CUI для представления входных заметок (базовый уровень). В следующих строках показана производительность классификатора SVM, который использует входные представления примечаний, полученные от кодировщика на основе DAN, предварительно обученного для различных задач прогнозирования кода выставления счетов. CUI используются в качестве входных данных для кодировщика. Строки 2 и 3 показывают производительность, когда кодировщик был предварительно обучен для всех кодов выставления счетов. В последней строке показана производительность кодировщика, специфичного для фенотипа, т. е. когда кодировщик был предварительно обучен только кодам выставления счетов за злоупотребление опиоидами.

Таблица 2.

1

Сравнение различных входных представлений о производительности классификатора SVM на данных овоида

916 916 916

Таблица 3.

Сравнение различных входных представлений о производительности классификатора SVM на данные неправильного использования.

Encoder SVM вход ROC AUC ROC AUC
NOTE NOTE Bag-of-Cuis 0.838 0.838
Dan Все биллинговые коды Дан скрытый слой 0.889
Dan Все биллинговые коды Дэн скрытый слой + пакет CUI 0.916
DAN Опионные коды счета Dan Hidden Layer 0.951
Encoder Должние цели ROC AUC ROC AUC
NORE NOTE Сумка-CUIS 0.714
Дан Все биллинговые коды Кодер Hidden Layer 0.725
Dan Все биллинговые коды Encoder Hidden Layer + Bag- Cuis 0.723
Dan коды счетов для алкоголя скрытый слой кодировщика 0,730

ОБСУЖДЕНИЕ И ЗАКЛЮЧЕНИЕ

Наш кодировщик клинического текста на основе CNN превзошел базовый уровень CUI с большим отрывом и показал примерно такую ​​же производительность. предыдущий кодировщик на основе DAN.Объединение представлений, сгенерированных кодировщиком, с разреженными векторами пакетов CUI не привело к улучшениям по сравнению со сценарием только с плотными представлениями, вероятно, потому, что кодировщик CNN уже фиксирует явные сильные функции. Использование слоя максимального пула CNN в качестве текстового представления еще больше повысило производительность, указав, что карта объектов, сгенерированная CNN, уже содержала необходимый сигнал, и нельзя было получить никаких преимуществ за счет захвата взаимодействий объектов в дополнительном полносвязном слое.

Наш кодировщик на основе DAN с большим отрывом превзошел базовый уровень набора CUI и наш предыдущий кодировщик. Добавление дополнительных функций набора CUI к представлениям, сгенерированным DAN, помогло еще больше повысить производительность, установив новый уровень техники для данных о сопутствующих заболеваниях i2b2. До этой работы, насколько нам известно, самые современные данные о проблеме ожирения i2b2 представлены в Yao et al, 30 , которые сообщают о макро-оценке F1 0,677 (точность и полнота не сообщаются). ).В целом, использование нашего текстового кодировщика повысило производительность базовых функций пакета CUI на 8 баллов и более чем на 7 баллов по сравнению с предыдущим уровнем развития техники.

Наш кодировщик на основе DAN показал наилучшую производительность на данных о сопутствующих заболеваниях, и мы продолжили его оценку на данных о злоупотреблении опиоидами, где он помог улучшить производительность классификатора более чем на 5 баллов. Сочетание разреженных наборов CUI с представлениями, сгенерированными кодировщиком, еще больше повысило производительность.Наконец, когда кодировщик был предварительно обучен только кодам выставления счетов, специфичным для опиоидов, мы получили дополнительные улучшения, превзойдя базовый уровень набора CUI более чем на одиннадцать пунктов.

Аналогично задаче о злоупотреблении опиоидами, мы обнаружили, что использование нашего текстового кодировщика помогает улучшить производительность классификатора в задаче обнаружения злоупотребления алкоголем, хотя размер улучшений более скромный. Это, вероятно, связано с тем, что предсказание злоупотребления алкоголем основано на обнаружении лишь нескольких сильных лексических признаков, которые хорошо фиксируются базовым уровнем набора CUI. 28

В целом, мы считаем, что предварительная подготовка с использованием кодов выставления счетов является жизнеспособным способом предварительной подготовки. Представления, созданные путем совместного предсказания кодов выставления счетов, связанных с встречей с пациентом, обладают свойствами универсальных представлений пациентов, поскольку они были полезны для всех описанных здесь задач фенотипирования. Хотя предварительное обучение по фенотипу полезно, оно менее практично, поскольку требует дополнительных усилий по настройке кодировщика на определенный набор кодов выставления счетов.Тем не менее, мы находим, что это жизнеспособный способ обмена универсальностью предварительно обученного кодировщика на лучшую производительность в конкретной задаче фенотипирования.

Как упоминалось во введении, альтернативой использованию предварительного обучения для извлечения признаков (как в наших методах, описанных выше) является подход, известный как тонкая настройка. При тонкой настройке новая задача добавляется в качестве дополнительного выходного слоя в предварительно обученную сеть. Затем метки задач передаются сети, весь набор весов которой может быть обновлен во время обучения прогнозированию меток для новой задачи.В то время как точная настройка звучит лучше в теории, мы обнаруживаем, что на практике это сложно. Тонкая настройка требует оптимизации на порядок большего количества гиперпараметров, включая скорость обучения, процент отсева и количество эпох обучения, размер партии, параметры оптимизатора, не говоря уже о выборе, связанном с графиком обучения для решения таких проблем, как катастрофические забывая. 31 Ховард и Рудер 9 обсуждают ряд методов точной настройки, таких как дискриминативная точная настройка, которая настраивает скорость обучения для каждого слоя, и постепенное размораживание, которое «оттаивает» один слой за раз для обучения.Эти методы составляют полезные эвристики, но накопленные научные знания о том, как работает тонкая настройка, кажутся недостаточно точными, чтобы их можно было надежно использовать. Мы предприняли несколько предварительных попыток тонкой настройки нашего предварительно обученного кодировщика, используя эвристические подходы, но вернулись к использованию нашей модели для извлечения признаков как более практичной альтернативе. Будущая работа продолжит изучение подхода к тонкой настройке.

До нашей работы методы кодирования текста, такие как BERT, 10 BioBERT, 32 и ELMo, 8 , были ориентированы на кодирование фрагментов текста размером в предложение или абзац.В этой работе мы ориентируемся на более крупные единицы текста, такие как отдельные клинические заметки или сборники заметок для пациента. Хотя возможно объединить представления на уровне предложений, полученные из таких моделей, как BERT, в представление на уровне документа, мы оставляем это исследование для будущей работы. Хотя нашей конечной целью является разработка универсального кодировщика пациентов, который фиксирует наиболее важную информацию, представленную в тексте заметок, мы признаем, что использование только кодов МКБ в качестве целей для предварительной тренировки имеет ограничения.Вполне вероятно, что расширение наших методов для включения других структурированных переменных, таких как заказы на лекарства, первичный диагноз, демографическая информация и статус реадмиссии, может стать следующим шагом к созданию универсального кодировщика, что приведет к еще более надежному представлению документов.

Подход, который мы здесь описываем, теперь успешно применяется ко многим отдельным задачам фенотипирования, но стоит подумать об ограничениях использования кодов выставления счетов для предварительной подготовки. Поскольку коды выставления счетов часто описывают существующие диагнозы, вполне возможно, что описанные здесь задачи будут успешными, поскольку они тесно связаны с несколькими кодами выставления счетов.В этом случае можно ожидать, что классификаторы для целевых переменных, не связанных с болезнью, таких как статус курения или конкретные симптомы, могут не получить пользы от описанного здесь режима предварительной подготовки. В таких случаях может потребоваться дополнить источник надзора другими типами меток. В будущей работе будут изучены потенциальные ограничения кодов выставления счетов как источника надзора и дополнительных возможных источников надзора; например, объединение кода биллинга и целей языкового моделирования может привести к действительно универсальному кодировщику клинического текста.

ФИНАНСИРОВАНИЕ

Эта работа была поддержана Национальным институтом здоровья/Национальной медицинской библиотекой, грант номер R01LM012973 (Тимоти Миллер (PI), Дмитрий Длигач (Co-I)) и Национальным институтом здоровья/Национальным институтом по злоупотреблению алкоголем и алкоголизму номер гранта K23AA024503 (Маджид Афшар (ИП)).

ВКЛАД АВТОРОВ

DD и TM участвовали в разработке, экспериментах, анализе и написании рукописи. MA предоставил данные о злоупотреблении психоактивными веществами и внес свой вклад в анализ и написание рукописи.

Заявление о конфликте интересов

Не заявлено.

Каталожные номера

1. Раджпуркар П., Цзя Р., Лян П. Знай то, чего не знаешь: вопросы без ответов для SQuAD. Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики. 2018: 784–789.

2. Хассан Х, Ауэ А, Чен С, и другие. Достижение человеческого равенства при автоматическом переводе новостей с китайского на английский [опубликовано в Интернете до печати 15 марта]. arXiv 2018.

3.Лонг М, Цао И, Ван Дж, и другие. Изучение переносимых функций с помощью сетей глубокой адаптации. Материалы 32-й Международной конференции по машинному обучению. 2015; 37:97–105. JMLR. орг. [Google Академия]

4. Разавиан А.С., Азизпур Х., Салливан Дж., и другие. CNN имеет готовые функции: поразительная основа для признания. В: Конференция IEEE Computer Society по компьютерному зрению и семинарам по распознаванию образов. 2014. doi: 10.1109/CVPRW.2014.131.

5. Миколов Т., Коррадо Г., Чен К., и другие.Эффективная оценка представлений слов в векторном пространстве. В: Труды Международной конференции по представительствам в обучении (ICLR 2013). 2013.

6. Пеннингтон Дж., Сочер Р., Мэннинг К.Д. GloVe: глобальные векторы для представления слов. В: Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка. 2014: 1532–1543. дои: 10.3115/v1/D14-1162.

7. Ле К., Миколов Т. Распределенные представления предложений и документов. В: Международная конференция по машинному обучению — ICML 2014.2014: 1188–96.

8. Петерс М.Е., Нойманн М., Ийер М., и др.. Глубокие контекстуализированные представления слов. Материалы конференции 2018 года Североамериканского отделения Ассоциации вычислительной лингвистики: технологии человеческого языка, том 1 (длинные статьи). 2018: 2227–2237.

9. Ховард Дж., Рудер С. Тонкая настройка универсальной языковой модели для классификации текста. Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи).2018: 328–339.

10. Девлин Дж., Чанг М.В., Ли К., и другие. Берт: предварительное обучение глубоких двунаправленных преобразователей для понимания языка [опубликовано онлайн до печати 11 октября]. arXiv 2018.

11. Акбик А., Блайт Д., Фоллграф Р. Контекстные вложения строк для маркировки последовательностей. В: Труды COLING 2018. 2018. doi: 10.1007/s11517-008-0365-4.

12. Длигач Д., Миллер Т. Изучение представлений пациентов по тексту. В: Материалы Седьмой совместной конференции по лексической и вычислительной семантике.2018: 119–23.

13. Рэдфорд А., Нарасимхан К., Салиманс Т., и другие. Улучшение понимания языка с помощью обучения без присмотра. 2018. Технический отчет, OpenAI.

14. Чой Э, Бахадори МТ, Сонг Л, и другие. GRAM: графическая модель внимания для обучения репрезентации здравоохранения. В: Материалы 23-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. 2017: 787–95.

15. Чой Э., Бахадори М.Т., Шютц А., и другие. Доктор ИИ: предсказание клинических событий с помощью рекуррентных нейронных сетей.В: Конференция по машинному обучению для здравоохранения. 2016: 301–18. [Бесплатная статья PMC] [PubMed]

16. Липтон З.С., Кале Д., Элкан С., и другие. Учимся диагностировать с помощью рекуррентных нейронных сетей LSTM [опубликовано онлайн перед печатью 21 марта]. arXiv 2017.

17. Миотто Р., Ли Л., Кидд Б.А., и другие. Глубокий пациент: неконтролируемое представление для прогнозирования будущего пациентов из электронных медицинских карт. Научный представитель 2016 г .; 6: 26094.. [Бесплатная статья PMC] [PubMed] [Google Scholar]18. Нгуен П., Тран Т., Викрамасингхе Н., и другие.Deepr: сверточная сеть для медицинских записей. IEEE J Biomed Health Inform 2017; 21 (1): 22–30. doi: 10.1109/JBHI.2016.2633963. [PubMed]

19. Фам Т., Тран Т., Фунг Д., и другие. Deepcare: модель глубокой динамической памяти для прогностической медицины. В: Тихоокеанско-азиатская конференция по открытию знаний и интеллектуальному анализу данных. 2016: 30–41.

20. Сушил М, Шустер С, Луйкс К, и другие. Обучение представлению пациентов и интерпретируемая оценка с использованием клинических заметок. Ж Биомед Информ 2018; 84: 103–13.doi: 10.1016/j.jbi.2018.06.016. [В паблике] 21. Пан SJ, Ян Q.. Опрос по трансферному обучению. IEEE Trans Knowl Data Eng 2010; 2210: 1345–1359. [Google Академия] 23. Шарабиани МТА, Айлин П, Бутылка А.. Систематический обзор индексов сопутствующих заболеваний для административных данных. Мед уход 2012; 5012: 1109–18. дои: 10.1097/MLR.0b013e31825f64d0. [PubMed] [Google Scholar]

24. Вайс А.Дж., Бейли М.К., О’Мэлли Л., и другие. Характеристики пребывания пациентов в стационаре, связанного с опиоидами, и посещений отделений неотложной помощи по стране и по штатам, 2014 г.Статистический бюллетень HCUP, 2017.

25. Узунер О, Южная БР, Шен С, и другие. Вызов i2b2/VA 2010 г. по концепциям, утверждениям и отношениям в клиническом тексте. J Am Med Inform Assoc 2011; 185: 552–6. [Бесплатная статья PMC] [PubMed] [Google Scholar]

26. Управление по вопросам употребления психоактивных веществ и психиатрических услуг. Национальное исследование по употреблению наркотиков и здоровью, 2015 г. Роквилл, Мэриленд: Центр статистики и качества поведенческого здоровья; 2016. doi: 10.2186/jjps.49.498.

27. Сондерс Дж.Б., Осланд О.Г., Бабор Т.Ф., и другие.Разработка теста для выявления расстройств, связанных с употреблением алкоголя (AUDIT): совместный проект ВОЗ по раннему выявлению лиц, злоупотребляющих алкоголем – II. Зависимость 1993; 88 (6): 791–804. doi: 10.1111/j.1360-0443.1993.tb02093.x. [В паблике] 28. Афшар М., Филлипс А., Карник Н., и другие. Обработка естественного языка и машинное обучение для выявления злоупотребления алкоголем из электронных медицинских карт пациентов с травмами: разработка и внутренняя проверка. J Am Med Inform Assoc 2019; 263: 254–61.doi: 10.1093/jamia/ocy166. [Бесплатная статья PMC] [PubMed] [Google Scholar]29. Бергстра Дж., Бенжио Ю.. Случайный поиск для оптимизации гиперпараметров. J Mach Learn Res 2012; 13: 281–305. [Google Scholar]

30. Яо Л., Мао С., Луо Ю. Клиническая классификация текстов с функциями, основанными на правилах, и свёрточными нейронными сетями, управляемыми знаниями. Опубликовано: Международная конференция IEEE по информатике в здравоохранении, 2018 г. (ICHI-W). 2018: 70–1.

31. Французский РМ. Катастрофическое забывание в коннекционистских сетях.Тенденции Cogn Sci 1999; 34: 128–35. doi: 10.1016/S1364-6613(99)01294-2. [PubMed] [Google Scholar]

32. Ли Джей, Юн В, Ким С, и другие. BioBERT: предварительно обученная модель представления биомедицинского языка для биомедицинского анализа текста [опубликовано в Интернете до печати 3 февраля]. arXiv 2019.

Dev.Opera — Кодирование и визуализация микроформатов

Введение

Итак, вы слышали о микроформатах, читали вводные статьи и даже купили книгу. Но теперь вы, вероятно, думаете «отлично — я внес свой вклад в улучшение Интернета, добавив микроформаты; что дальше? Что люди могут делать с моими данными, кроме добавления их в свою адресную книгу или календарь?» Цель этой статьи — заставить вас по-новому взглянуть на микроформаты и продемонстрировать некоторые интересные визуализации и сочетания микроформатированного содержимого.

Если вы не знакомы с основами и фоном микроформатов, то я бы посоветовал сначала прочитать эти статьи, прежде чем идти дальше:

Итак, теперь вы знаете, какие форматы существуют и что они могут делать, я хочу помочь вы тренируете свой глаз распознавать микроформаты.

Microformatspotting

Немного потренировавшись, вы начнете замечать микроформатируемые данные повсюду. Микроформатируемые данные — это не просто текст, структурированный в нижних колонтитулах страницы или в виде списка на боковой панели.Их можно легко применить к прозаическому тексту прямо в потоке документа. Каждый раз, когда мы что-то читаем, наш мозг упорядочивает и структурирует содержание — мы просто не обязательно это осознаем. Это потому, что люди умны; мы запрограммированы находить закономерности и создавать порядок из хаоса. Машины, с другой стороны, не так хороши в этих вещах, поэтому им нужна явная помощь. Добавление микроформатов к структурированному контенту — это здорово, но добавление микроформатов к неструктурированному контенту — еще лучше.Это добавляет ценность там, где машина изначально не могла извлечь ценность. Например, возьмите следующий текстовый фрагмент со страницы Википедии об информатике, прочитайте его и посмотрите, сколько вы сможете найти.

  В 1957 году немецкий ученый-компьютерщик Карл Штайнбух
придумал слово Informatik, опубликовав статью под названием Informatik:
Automatische Informationsverarbeitung (т. е. «Информатика: автоматическая
обработка информации"). Английский термин информатика обычно
ошибочно понимают, что это то же самое, что информатика.Но информатика
теоретически ориентирован вопреки информатике и поэтому
больше ориентирован на математику, чем на информатику.

Французский термин информатика был введен в 1962 году Филиппом Дрейфусом.
вместе с различными переводами-информатикой (английский язык), также предложил
независимо и одновременно Уолтером Ф. Бауэром, соучредителем
компания Informatics General Inc. и информатика (итал.
испанский, португальский), имея в виду применение компьютеров для хранения
и обрабатывать информацию. 

Вы видели их все? Давайте еще раз взглянем на эти абзацы — на этот раз я укажу и размечу некоторые микроформаты.

  

В 1957 немецкий ученый-компьютерщик Карл Штайнбух придумал слово Informatik, опубликовав статью под названием Информатика: Автоматика Informationsverarbeitung (т.е. «Информатика: автоматическая обработка информации»). Английский термин «информатика» обычно ошибочно понимают как одно и то же. как информатика. Но информатика теоретически ориентирована вопреки к информатике и поэтому больше ориентирован на математику чем информатика.

<диапазон> Французский термин информатика была придумана в 1962 Филипп Дрейфус вместе с различными переводами - информатика (английский) , также предложены независимо и одновременно <диапазон> Уолтер Ф.Бауэр который стал соучредителем компании под названием Информатика Дженерал Инк. и информатика (итальянский, испанский, португальский), ссылаясь на Применение компьютеров для хранения и обработки информации.

В этих 2 абзацах минимум 2 события и 3 человека. Посмотрите, как некоторые данные перекрываются и имеют свободную форму. Иногда свойства микроформата располагаются не в том порядке, в котором вы ожидаете, или между значениями имеется некоторое расстояние.Если вы внимательно посмотрите на то, что я отметил, вы заметите, что мы придали структуру двум событиям в прошлом. Микроформат hCalendar предназначен не только для предстоящих событий — его можно использовать для разметки любого события. Вы можете сказать себе: : «Отлично, я только что добавил микроформаты, но какая разница, в каком году были придуманы эти термины? Я не собираюсь добавлять 1957 и 1962 годы в Outlook, как на завтрашней встрече!»

Это правда — вы, наверное, не собираетесь синхронизировать эти данные с мобильным устройством и проверять события 40+ летней давности, так какой смысл размечать это микроформатами? Это просто наценка ради наценки? Конечно нет! Добавив немного «семантического сахара» в ваш HTML, мы можем начать отображать одни и те же данные различными способами и вращаться по разным осям.В совокупности мы можем начать просмотр всех зафиксированных событий, произошедших в те годы.

На сегодняшний день наиболее распространенной визуализацией данных hCalendar является преобразование HTML в файл .ics и импорт его в приложение календаря. Это позволяет вам взаимодействовать с событием наряду с вашими повседневными делами, но мы можем сделать гораздо больше с данными. События с отметками времени можно легко нанести на временную шкалу, чтобы визуализировать данные. Таким образом, мы можем взять наш предыдущий пример из статьи в Википедии, извлечь даты и поместить их на временную шкалу, не написав ни единого фрагмента кода.

Визуализация временной шкалы

В проекте W3C SIMILE есть приложение временной шкалы JavaScript, которое легко встраивается в HTML, подобно популярным виджетам карт JavaScript. В JavaScript вы указываете точки данных, метки и несколько других свойств, после чего они красиво отображаются на временной шкале. Преимущество этого приложения временной шкалы JavaScript заключается в том, что оно также принимает указатель на XML-файл в качестве входных данных. Это позволяет вам указать на страницу, которая была микроформатирована с помощью hCalendar, чтобы отобразить ее на временной шкале.Давайте снова посмотрим на этот фрагмент Википедии и посмотрим, как мы можем взять микроформатированную страницу, преобразовать ее в XML и отправить в приложение временной шкалы для отображения. Все эти шаги выполняются с помощью веб-сервисов, поэтому вам не нужно ничего кодировать. Окончательный результат должен выглядеть так, как показано на рисунке 1.

Рисунок 1: Статья из Википедии, представленная на временной шкале

Преобразование данных

Есть несколько сайтов, предлагающих услуги по преобразованию hCalendar в XML, необходимый для приложения временной шкалы JavaScript.

Эти две веб-службы позволяют вам брать hCalendar и преобразовывать его в различные форматы. Теперь вы можете начать визуализировать одни и те же данные о событиях иначе, чем предполагал первоначальный автор. Это возможно только с помощью дополнительной семантики, которую обеспечивают микроформаты. Если бы в HTML не было семантической информации, для машины было бы почти невозможно правильно извлечь данные и связанный с ними текст, не говоря уже о том, чтобы знать, какой тип информации. Добавляя микроформаты, первоначальный автор открывает двери для множества возможностей мэшапов.Взятие данных и их повторное объединение, повторное смешивание и повторное отображение так, как автор никогда не планировал и не думал! Добавляя немного семантики в HTML, данные становятся на порядки более ценными.

Все, что имеет дату, может быть кандидатом на сопоставление с временной шкалой. Плакатный ребенок Web 2.0 Twitter — это инструмент, который может выиграть от отображения на временной шкале. Когда вы просматриваете твиттер-ленту друга, вы видите все посты в обратном порядке. Каждая запись имеет временную метку, которую можно отобразить на временной шкале.Вы можете начать видеть вещи, которые не были видны в виде простого списка. Появляются тенденции, такие как более или менее частые публикации по выходным или по вечерам. Эти новые альтернативные визуализации дают некоторые ответы, но чаще всего они приводят к большему количеству вопросов. Тот гигантский пробел в хронике моего друга, где вообще не было постов — что там происходило? Они были заняты, в отпуске или, может быть, что-то еще? Вы можете начать делать статистический анализ и получать среднее количество часов между постами и предсказывать, когда появится следующий.На рис. 2 показаны некоторые данные Twitter, нанесенные на временную шкалу JavaScript-приложения.

Рисунок 2: Данные Twitter, нанесенные на график с помощью приложения временной шкалы JavaScript

Визуализация графика

XFN — это микроформат, определяющий отношения между вами и другим человеком. XFN определяет несколько типов ссылок, от друга и коллеги до коллеги и супруга. Мы можем просканировать все эти ссылки до глубины и построить график взаимосвязей. Именно это и позволяет нам сделать сервис многоглазой визуализации IBM (см. рис. 3).

Рисунок 3: XFN-ссылки tantek.com, представленные с глубиной сканирования 3, с выделенным Брайеном Суда

В приведенном выше примере tantek.com просматривает сайт в поисках XFN-ссылок. Это ссылки на друзей Тантека. Он находит ссылки, помеченные XFN, и переходит по ним, продолжая искать дополнительные ссылки XFN на каждом последующем сайте. Он делает это до глубины 3 и создает граф узлов, которые являются URL-адресами, и ребер, которые являются ссылками XFN между узлами. Вместо того, чтобы видеть список ссылок на HTML-странице, теперь вы можете начать визуализировать их на графике.Вы можете увидеть, сколько входящих и исходящих ссылок имеет каждый сайт. Чем больше соединений в узле и из узла, тем больше связей у этого человека. Перейдя по ссылкам, вы можете начать подключаться к кому-либо еще на графике через URL-адреса других людей. Можно создать свою собственную игру Кевина Бэкона с блоггерами и технологами из списка лучших. Сколько шагов между Биллом Гейтсом и мной?

Визуализация карты

BBC запустила короткий 30-дневный мини-сайт о путешествии на лодке под названием «Путешествие по реке Бангладеш».Этот веб-сайт полон микроформатов, в том числе геомикроформата, который представляет собой способ разметки мест с помощью широты и долготы, добавляя семантику, чтобы отличить их от других мест с такими же или похожими названиями. Затем вы можете взять эти геоданные и извлечь их с помощью веб-службы или панели инструментов оператора для Firefox.

С помощью такой службы, как http://suda.co.uk/projects/microformats/geo/, можно преобразовать HTML-страницу в файл KML или GeoRSS. Это здорово, но вы можете спросить себя «Что хорошего в этих файлах?» Одна вещь, которую вы можете сделать, это импортировать файл KML в карты Google — на картах.google.com, вы можете ввести URL-адрес файла KML, и Google Maps проанализирует его и нанесет на карту.

Вы можете взять исходную страницу BBC (http://www.bbc.co.uk/worldservice/bangladeshboat/) и передать ее в мой гео-веб-сервис. При этом создается следующий более длинный URL-адрес, который является ссылкой на результирующий файл KML — http://suda.co.uk/projects/microformats/geo/get-geo.php?type=kml&uri=http://www. .bbc.co.uk/worldservice/bangladeshboat/

Теперь вы можете перейти к картам.google.com, вставьте этот URL-адрес в окно поиска и нажмите Enter/Return. Если все пойдет хорошо, у вас должен быть новый URL-адрес, подобный этому:

  http://maps.google.com/maps?f=q&hl=en&geocode=&time=&date=&ttype=&q=http:%2F%2Fsuda. co.uk%2Fprojects%2Fmicroformats%2Fgeo%2Fget-geo.php%3Ftype%3Dkml%26uri%3Dhttp:%2F%2Fwww.bbc.co.uk%2Fworldservice%2Fbangladeshboat%2F&ie=UTF8&ll=22.973567,90.351563&spn=2.098716, 3,735352&t=p&z=8&om=1
  
Рис. 4. Страница BBC, размеченная с помощью геомикроформата и отображаемая в Картах Google

Теперь вывод на экран должен выглядеть примерно так, как показано на рис. 4.

Рисунок 4: Страница BBC, размеченная с помощью геомикроформата и отображаемая в Google Maps

Используя подобные методы, вы можете начать визуализировать геоконтент в более пространственной манере. Вы можете видеть, что Дакка находится довольно далеко от Даулатпура, но когда вы читаете это в тексте, у вас не будет ощущения масштаба. Гео-визуализация на карте предоставляет еще один способ просмотра микроформатированного контента за рамками того, что было задумано изначально.

Резюме

По мере разработки сайтов и их содержания вы начнете наметывать микроформаты и начнете видеть их повсюду.Поскольку все больше и больше контента подвергается микроформатированию, вы можете начать визуализировать и представлять данные по-разному. Со всеми этими примерами вы лучше понимаете данные из контекста визуализаций. Эти альтернативные визуализации данных возможны только при добавлении большего семантического значения в HTML. Это позволяет другим людям повысить ценность ваших продуктов, представляя новые способы просмотра и восприятия информации — и все это стоит вам всего нескольких минут времени разработки для кодирования некоторых микроформатов.Существует множество ресурсов, которые помогут вам начать работу, в том числе памятка по микроформатам, подключаемые модули Dreamweaver и несколько веб-инструментов, которые помогут вам автоматически создавать микроформаты.

Первоначальные авторы Twitter, вероятно, никогда не задумывались о том, чтобы отображать ваши сообщения в Twitter на временной шкале, точно так же, как кто-то другой, кто читает эту статью, вероятно, придумает другую визуализацию, которую я никогда не рассматривал. Вы можете стать тем, кто заставит других людей думать иначе, перевернув эти данные с ног на голову с помощью микроформатов.

В следующих статьях я более подробно изучу отдельные микроформатные мэшапы.

Шифр ​​Playfair | Веб-сайт SMC Informatics

Шифрование/дешифрование

Шифр ​​Playfair — это способ кодирования текста. Ваша задача в этом вопросе — написать программу, использующую этот метод для кодирования и декодирования секретных слов. В коде используются две сетки 5 × 5, каждая из которых содержит перемешанный алфавит (без буквы Q). Чтобы закодировать слово, оно разбивается на пары букв, и каждая пара кодируется отдельно.[Если в слове нечетное количество букв, перед кодированием в конец слова добавляется X]. Для каждой пары букв первая находится в левой сетке, а вторая — в правой сетке.

 

• Если две буквы находятся в одной строке, каждая из них заменяется на ту, что находится справа от нее (при необходимости перенос на начало той же строки). Например, CR будет заменен на SN, а HE будет заменен на BJ.

• Если две буквы находятся в разных рядах, представьте, что это два угла прямоугольника.Их следует заменить двумя другими углами прямоугольника. Например, SE заменяется на HK, а KU на NI.

 

Таким образом, слово SECRET становится HKSNTJ, а HELLO становится BJXARW (помните, что X был добавлен).

Чтобы упростить запоминание сеток, каждая из них состоит из ключевого слова. Для создания левой сетки ключевое слово записывается в сетку (сначала верхняя строка, начиная слева). В примере использовалась ИНФОРМАТИКА. Обратите внимание, что если мы сталкиваемся с буквой более одного раза (например, I), мы используем ее только в первый раз.Затем сетка заполняется остальной частью алфавита (по порядку), игнорируя уже использованные буквы.

Правая сетка создается таким же образом, но в обратном порядке, начиная с правого нижнего ряда. В примере используется слово ОЛИМПИАДА.

Напишите интерактивную программу для кодирования и декодирования секретных слов.

Ваша программа должна делать следующее:

1. Сначала прочитайте в две строки. В каждой строке будет одно слово. Первая строка содержит ключевое слово для левой сетки, а вторая строка содержит ключевое слово для правой сетки.

2. Затем он должен вывести две сетки рядом.

3. Пока ваша программа не завершится, она должна постоянно ждать ввода, а затем:

• Если вы получили букву E, вы должны ввести слово, закодировать его и распечатать результат.

• Если вы получили букву D, вы должны ввести слово, расшифровать его и распечатать результат. [Вы должны научиться расшифровывать слова.] Ни одно расшифрованное слово не должно заканчиваться на букву X

• Если вы получили букву Q, вы должны прекратить.

• Игнорировать любой другой ввод.

 Примечание: все входные слова (включая ключевые слова) будут содержать от 1 до 25 (включительно) прописных букв и никогда не будут содержать букву Q.

 

 

Нравится:

Нравится Загрузка…

Информатика | Психология Вики | Фэндом

Оценка | Биопсихология | Сравнительный | Познавательный | Развивающие | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клинический | Образовательные | промышленный | Профессиональные товары | Мировая психология |

Профессиональная психология: Дискуссионная палата · Журналы по психологии · Психологи


Информатика включает науку об информации, практику обработки информации и разработку информационных систем.Информатика изучает структуру, поведение и взаимодействие естественных и искусственных систем, которые хранят, обрабатывают и передают информацию. Он также разрабатывает свои собственные концептуальные и теоретические основы. Поскольку компьютеры, отдельные лица и организации обрабатывают информацию, информатика имеет вычислительные, когнитивные и социальные аспекты, включая изучение социального воздействия информационных технологий.

Используется как составное в сочетании с названием дисциплины, например, медицинская информатика , биоинформатика и т. д., он обозначает специализацию информатики на управлении и обработке данных, информации и знаний в названной дисциплине, а также включение информационных концепций и теорий для обогащения другой дисциплины; он имеет такое же отношение к библиотечному делу.

Аспекты информатики включают:

Этимология

В 1957 году немецкий ученый-компьютерщик Карл Штайнбух придумал слово Informatik , опубликовав статью под названием Informatik: Automatische Informationsverarbeitung («Информатика: автоматическая обработка информации»).Английский термин Информатика обычно неправильно понимается как то же самое, что и информатика. Однако информатика теоретически больше ориентирована на математику, чем на информатику.

Французский термин informatique был придуман в 1962 году Филиппом Дрейфусом [1] вместе с различными переводами — информатика (английский), также предложенный независимо и одновременно Уолтером Ф. Бауэром, который стал соучредителем компании под названием Informatics General. , Инк. и информатика (итальянский, испанский, португальский, голландский), относящиеся к применению компьютеров для хранения и обработки информации.

Термин был придуман как сочетание слов «информация» и «автоматизация» для описания науки об автоматической обработке информации. Морфология — informat —ion + — ics — использует «принятую форму для названий наук, таких как коника, лингвистика, оптика или дела практики, как экономика, политика, тактика», [2] и поэтому с лингвистической точки зрения это значение легко расширяется, охватывая как науку об информации, так и практику обработки информации.

Этот новый термин был принят по всей Западной Европе и, за исключением английского языка, приобрел значение, примерно переведенное с английского как «компьютерная наука» или «вычислительная наука». Михайлов и др. отстаивал русский термин информатика (1966) и английский информатика (1967) как названия теории научной информации и выступал за более широкое значение, включая изучение использования информационных технологий в различных сообществах. (например, научных) и взаимодействия техники и человеческих организационных структур.

Информатика — научная дисциплина, изучающая структуру и свойства (не конкретное содержание) научной информации, а также закономерности научно-информационной деятельности, ее теорию, историю, методологию и организацию. [3]

С тех пор использование изменило это определение тремя способами. Во-первых, снимается ограничение на научную информацию, как в бизнес-информатике или юридической информатике. Во-вторых, поскольку большая часть информации теперь хранится в цифровом виде, вычисления теперь занимают центральное место в информатике.В-третьих, к объектам исследования добавляются представление, обработка и передача информации, поскольку они были признаны фундаментальными для любого научного описания информации. Принимая информацию в качестве основного предмета изучения, затем различаем информатику , которая включает изучение биологических и социальных механизмов обработки информации, от информатики , где цифровые вычисления играют выдающуюся центральную роль. Точно так же при изучении репрезентации и коммуникации информатика безразлична к субстрату, несущему информацию.Например, он включает в себя изучение общения с использованием жестов, речи и языка, а также цифровых коммуникаций и сетей.

Широкая интерпретация информатики как «изучение структуры, поведения и взаимодействий естественных и искусственных вычислительных систем» была введена Эдинбургским университетом в 1994 г., когда он сформировал группу, которая сейчас называется его Школой Информатика. Это значение сейчас (2006 г.) все чаще используется в Соединенном Королевстве. [4] Информатика охватывает изучение систем, которые представляют, обрабатывают и передают информацию, включая все вычислительные, когнитивные и социальные аспекты. Центральным понятием является преобразование информации — посредством вычислений или коммуникации, будь то организмы или артефакты. В этом смысле информатику можно рассматривать как охватывающую информатику, когнитивную науку, искусственный интеллект, информатику и смежные области, а также расширяющую сферу информатики, чтобы охватить вычисления в естественных, а также инженерных вычислительных системах.Университет штата Аризона принял это более широкое определение при открытии Школы вычислительной техники и информатики в сентябре 2006 года.

Упражнение по оценке исследований 2008 года Совета по финансированию Великобритании включает новую единицу оценки Информатика и информатика (UoA), [5] , объем которой описывается следующим образом:

UoA включает изучение методов получения, хранения, обработки, передачи и рассуждения об информации, а также роли интерактивности в естественных и искусственных системах посредством внедрения, организации и использования компьютерного оборудования, программного обеспечения и других ресурсов.Субъекты характеризуются строгим применением анализа, экспериментов и дизайна.

В Школе информатики Университета Индианы информатика определяется как «искусство, наука и человеческие аспекты информационных технологий» и «изучение, применение и социальные последствия технологий». Он также определяется в Informatics I101, Introduction to Informatics как «применение информационных технологий в искусстве, науке и профессиях». Эти определения широко приняты в Соединенных Штатах и ​​отличаются от британского использования отсутствием изучения естественных вычислений.

На факультете информатики Калифорнийского университета в Ирвине информатика определяется как «междисциплинарное исследование дизайна, применения, использования и влияния информационных технологий. Дисциплина информатики основана на признании того, что дизайн этой технологии не только технический вопрос, но и должен сосредоточиться на отношениях между технологией и ее использованием в реальных условиях, то есть информатика разрабатывает решения в контексте и принимает во внимание социальные, культурные и организационные условия, в которых компьютерные и информационные технологии будет использоваться.»

В англоязычном мире термин информатика впервые широко использовался в составе соединения «медицинская информатика», включающего «познавательные, информационные и коммуникативные задачи медицинской практики, образования и исследований, включая информацию». наука и технология для поддержки этих задач». [6] В настоящее время используется много таких соединений; их можно рассматривать как разные области прикладной информатики.

Специалиста по информатике можно назвать информатиком .

Информатика, интересующая психологов

К ним относятся:

Сопутствующие дисциплины

См. также

Примечания

  1. ↑ Дрейфус, Филипп. Информатика. Gestion, Париж, июнь 1962 г., стр. 240–41.
  2. ↑ Оксфордский словарь английского языка 1989 г.
  3. ↑ Михайлов А.И., Черныль А.И., Гиляревский Р.С. (1966) «Информатика — новое название теории научной информации». Научно-техническая информация , 12, с.35–39.
  4. ↑ Например, в Сассексе, Городском университете, Ольстере, Брэдфорде, Манчестере и Ньюкасле.
  5. ↑ UoA 23 Информатика и информатика, Методы панельной работы
  6. ↑ Гринс, Р.А. и Шортлифф, Э.Х. (1990) «Медицинская информатика: новая дисциплина с академическими и институциональными перспективами». Журнал Американской медицинской ассоциации , 263 (8), стр. 1114–20.

Внешние ссылки

Страница не найдена – Развитие колледжа Хури

В мире, где компьютерные науки (CS) повсюду, CS для всех.CS пересекает все дисциплины и отрасли.

Колледж компьютерных наук Хури стремится создавать и развивать разнообразную инклюзивную среду.

Колледж Хури, первый в стране колледж компьютерных наук, основанный в 1982 году, вырос в размерах, разнообразии, программах на получение степени и превосходстве исследований.

В наших региональных кампусах, расположенных в промышленных и технологических центрах, Колледж Хури предлагает сильные академические программы в оживленных городах для жизни, работы и учебы.

Khoury College — это сообщество людей, занимающихся обучением, наставничеством, консультированием и поддержкой студентов по каждой программе.

Программы награждения колледжей и университетов проливают свет на выдающихся преподавателей, студентов, выпускников и отраслевых партнеров.

Наши реальные исследования, выдающиеся преподаватели, выдающиеся докладчики, динамичные выпускники и разные студенты рассказывают свои истории и попадают в новости.

В Колледже Хури обучение происходит в классе и за его пределами. Мероприятия в нашей сети кампусов обогащают образовательный опыт.

Информатика повсюду.Студенты Khoury College занимаются соответствующей работой, исследованиями, глобальными исследованиями и опытом обслуживания, которые помогают им расти.

Студенты магистратуры углубляют свой опыт за счет проектной работы, профессионального опыта работы и стажировок.

Работа над исследованиями с преподавателями занимает центральное место в опыте доктора философии.Докторанты колледжа Хури также могут проводить исследования с отраслевыми партнерами.

Преподаватели и студенты Колледжа Хури проводят эффективную работу по разным дисциплинам. Благодаря широкому спектру областей исследований мы каждый день решаем новые проблемы в области технологий.

Наши институты и исследовательские центры объединяют ведущих академических, отраслевых и государственных партнеров, чтобы использовать вычислительную мощь.

Исследовательские проекты, разработанные и проводимые профессорско-преподавательским составом Khoury College мирового уровня, привлекают студентов и других исследователей к получению новых знаний.

Исследовательские лаборатории и группы сосредотачиваются на наборе проблем в конкретном контексте, приглашая к исследованиям и сотрудничеству.

Эта новая инициатива направлена ​​на устранение рисков для конфиденциальности и личных данных с помощью коллективных усилий на низовом уровне с упором на прозрачность и подотчетность.

Современное оборудование, бесшовные системы и инновационные лаборатории и помещения позволяют нашим преподавателям и студентам проводить передовые исследования.

Колледж Хури гордится нашим инклюзивным сообществом, основанным на сотрудничестве. Каждый день мы стремимся создавать программы, которые приветствуют самых разных студентов в CS.

Более 20 компьютерных клубов в Колледже Хури и на Северо-Востоке предлагают что-то для каждого студента.Мы всегда рады новым членам на каждом уровне.

Студенты учатся в современных классах, конференц-залах для совместной работы, а также в ультрасовременных лабораториях и исследовательских центрах.

Сети обеспечивают безопасную и беспроблемную работу кода, современное и надежное оборудование, а наша квалифицированная системная команда управляет поддержкой и обновлениями.

Заинтригован Колледжем Хури и Северо-восточным университетом? Начните здесь, чтобы увидеть общую картину: академические науки, экспериментальное обучение, студенческая жизнь и многое другое.

Готовы сделать следующий шаг в технической карьере? Наши магистерские программы сочетают в себе академическую строгость, исследовательское превосходство и значимые экспериментальные возможности.

Добро пожаловать в магистерскую программу Align, предназначенную для людей, готовых добавить информатику (CS) в свой набор навыков или переключиться на совершенно новую карьеру в области технологий.

Будучи аспирантом Хури, вы погрузитесь в строгую учебную программу, будете сотрудничать с известными преподавателями и окажете влияние на выбранную вами область исследований.

Где бы вы ни находились на пути бакалавриата в Хури, у нас есть консультанты, ресурсы и возможности, которые помогут вам добиться успеха и сделать информатику доступной для всех.

Где бы вы ни находились на пути к аспирантуре Хури, наши консультанты, информационные ресурсы и возможности помогут вам выбрать индивидуальный путь.

На любом этапе пути Align — и в любом из наших кампусов — консультанты Khoury, ресурсы и возможности поддержат вас на пути к карьере в сфере технологий.

Консультанты и преподаватели помогут вам пройти путь докторантуры в Колледже Хури — от исследовательских пространств и междисциплинарных проектов до студенческой жизни и ресурсов.

Преподаватели и сотрудники вносят исключительный вклад в Колледж Хури и в будущее компьютерных наук. Мы здесь, чтобы поддержать вас на каждом шагу.

Руководство по информатике здравоохранения, 3-е издание

Похищение : Форма логического вывода, обычно применяемая в процессе медицинской диагностики.Учитывая наблюдение, похищение порождает все известные причины. См. также: Дедукция, Индукция, Вывод.

Агент : Компьютерное программное обеспечение, созданное для работы с определенной степенью автономии от пользователя, т.е. агент может искать в Интернете информацию, основанную на неточных спецификациях, предоставленных его пользователем. См. также: Искусственный интеллект.

Алгоритм : набор инструкций для программного выполнения некоторой задачи. В клинической практике алгоритмы обычно, но не всегда, включают в себя ту или иную форму численного расчета.См. также: Протокол, Руководство, Путь ухода, Практический параметр.

Аллель: Вариантная форма того же гена.

Алфавит : Набор символов, определяющий определенный язык. См.: Язык.

Альтернативный продукт для сплайсинга : Вариант способа сплайсинга пре-мРНК. Интроны обычно сплайсируются (удаляются) из пре-мРНК, а оставшиеся экзоны соединяются вместе, образуя непрерывный транскрипт мРНК (см. Экзон). Однако один и тот же набор интронов не всегда может быть сплайсирован, и полученная мРНК может иметь различную комбинацию интронов и экзонов.Эти альтернативные версии мРНК приводят к образованию различных нижележащих белков (альтернативные продукты сплайсинга). Альтернативные продукты сплайсинга являются одной из причин, по которой количество генных продуктов намного превышает количество генов.

Аннотация: Рутинный процесс присвоения функций генам в секвенированном геноме или извлечение биологических знаний из необработанных нуклеотидных последовательностей.

Антисмысловые: молекулы нуклеиновой кислоты N , которые связывают комплементарную цепь нуклеиновой кислоты для изменения экспрессии гена.

Приложение : Синоним для компьютерной программы, которая выполняет определенный тип задачи. Текстовые процессоры или электронные таблицы являются распространенными приложениями, доступными на персональных компьютерах.

Синтаксис Arden : Язык, созданный для кодирования действий в рамках клинического протокола в набор правил ситуационного действия для компьютерной интерпретации, а также для облегчения обмена между различными учреждениями.

ARPAnet : Сеть перспективных исследовательских проектов.Компьютерная сеть, разработанная Министерством обороны США в конце 1960-х годов и предшественница сегодняшнего Интернета.

Искусственный интеллект (ИИ) : Любой артефакт, воплощенный исключительно в компьютерном программном обеспечении или физической структуре, такой как робот, который демонстрирует поведение, связанное с человеческим интеллектом. Также изучение науки и методов создания таких артефактов. См. также: Тест Тьюринга.

Искусственный интеллект в медицине : Применение методов искусственного интеллекта для решения проблем в медицине e.г. разработка экспертных систем для помощи в диагностике или планировании терапии. См. также: Искусственный интеллект, Экспертная система.

Сборка: конструирование более длинных последовательностей, таких как контиги или геномы, из более коротких последовательностей, например, считывание последовательности с предварительным знанием порядка считывания или без него или ссылкой на близкородственную последовательность.

Асинхронная связь : Режим связи между двумя сторонами, когда обмен не требует, чтобы обе стороны были активными участниками разговора в одно и то же время e.г. отправка письма. См. также: Синхронная связь, Изохронная связь Электронная почта.

ATM : Режим асинхронной передачи. Пакетный протокол связи, который обеспечивает высокую скорость передачи данных, необходимую для мультимедийной связи. См. также: Сеть с коммутацией пакетов, Сеть с коммутацией каналов.

Дополненная реальность : Наложение дополнительной информации на данные органов чувств человека, например. наложение меток на изображения, которые видит человек.

Пропускная способность : Объем данных, который может быть передан по каналу связи за заданный период времени.См. также Биты в секунду, Пропускная способность канала.

Пара оснований (bp): Пара комплементарных нуклеотидов. Специфическое соединение этих оснований (аденин с тимином и гуанин с цитозином) формирует единицы ДНК и РНК, которые кодируют генетическую информацию и способствуют точной репликации ДНК. При количественном определении (например, 120 п.н.) п.н. относится к физической длине последовательности нуклеотидов. (см. ДНК).

Теорема Байеса : Теорема, используемая для расчета относительной вероятности события с учетом вероятностей связанных событий.Используется для расчета вероятности заболевания с учетом частоты симптомов и признаков заболевания и нормальной популяции. См. также: Условная вероятность, Априорная вероятность, Апостериорная вероятность.

Биоинформатика : Поддисциплина медицинской информатики, связанная с применением молекулярной биологии в биомедицинских науках и трансляционной медицине, особенно с использованием вычислительных инструментов и алгоритмов в исследованиях геномики и протеомики. Исторически биоинформатика занималась анализом последовательностей генов и их продуктов (белков), но с тех пор эта область расширилась до управления, обработки, анализа и визуализации больших объемов данных из геномики, протеомики, скрининга лекарств и фармакология.

Биомаркер: Биологическая характеристика, которая объективно измеряется и оценивается как показатель нормальных или патологических процессов или реакции организма на терапевтическое вмешательство.

B-ISDN : Широкополосный ISDN. Набор стандартов системы связи для систем ОрВД. См.: ATM, ISDN.

Бит : Одна двоичная цифра по основанию 2. Базовая единица для электронных хранимых или передаваемых данных. См. также: Байт.

Бит в секунду : Мера скорости передачи данных.См. также: Бит.

BLAST (базовый инструмент логического выравнивания и поиска): компьютерная программа для поиска последовательностей в базах данных, которые идентичны последовательности запроса.

Bluetooth: Система беспроводной связи, позволяющая многим персональным устройствам, таким как компьютеры, мобильные телефоны и цифровые камеры, обмениваться данными друг с другом на небольшом расстоянии.

Булева логика: Система логики, разработанная Жоржем Булем, которая определяла значение лингвистических понятий, таких как и , или и , а не , для создания «законов мысли», которые имели четкий синтаксис и семантику.

Широкополосная сеть : Общий термин для компьютерной сети, способной к передаче с высокой пропускной способностью. См. также: Банкомат.

Браузер : Программа, используемая для просмотра данных, например. изучение содержимого базы данных или базы знаний или просмотр документов в Интернете. См. также: Мозаика, Всемирная паутина, Интернет.

Байт : восемь бит. Байты обычно считаются в килобайтах (1024 байта), мегабайтах и ​​гигабайтах. См. также: Бит.

Исследование генов-кандидатов: Исследование конкретных генетических локусов, в которых может существовать ассоциация фенотип-генотип (эксперимент с генотипом, основанный на гипотезе).

Care Pathway : Описывает ожидаемый ход ведения пациента и действия, которые необходимо предпринять на каждом этапе. См. также: Алгоритм, Протокол, Руководство, Практический параметр.

Рассуждения на основе прецедентов : Подход к компьютерным рассуждениям, который использует знания из библиотеки похожих прецедентов, а не за счет доступа к базе знаний, содержащей более общие знания, такие как набор правил. См. также: Искусственный интеллект, Экспертная система.

Причинное рассуждение : Форма рассуждения, основанная на следовании от причины к следствию, в отличие от других методов, в которых связь более слабая, таких как вероятностная ассоциация.

CDSS : Система поддержки принятия клинических решений.

Центральность : Семейство показателей социальной сети, основанных на количестве или типе связей между человеком и другими, для оценки степени влияния или местоположения в сети.

CERN : Европейский совет по ядерным исследованиям.Европейская лаборатория физики элементарных частиц. Именно здесь был разработан первоначальный набор стандартов для создания Всемирной паутины. См.: HTML, HTTP, WWW.

Канал : Соединение между двумя сторонами, передающее их сообщения, такие как телефон или электронная почта.

Пропускная способность канала : Количество данных, которое может быть передано в единицу времени по каналу связи. Синоним: пропускная способность.

Контрольный список : Упорядоченный список элементов, которые необходимо «отмечать» по мере их выполнения.См.: Протокол.

Хромосома : Один из физически отдельных сегментов, которые вместе образуют геном или общий генетический материал клетки. Хромосомы представляют собой длинные нити генетического материала или ДНК, упакованные и сжатые путем обертывания белков. Количество и размер хромосом варьируется от вида к виду. У человека 23 пары хромосом (в паре по одной хромосоме от каждого родителя). Одна пара образует половые хромосомы, поскольку они содержат гены, определяющие пол.Хромосома, несущая определяющие мужские гены, обозначается Y, а соответствующая женская – Х-хромосома. Остальные пары называются аутосомами. Хромосома 1 самая большая, а хромосома 22 самая маленькая. Каждая хромосома имеет два «плеча», обозначенных p и q.

Сеть с коммутацией каналов : Сеть связи, которая соединяет стороны путем установления между ними выделенного канала. См. также: Сеть с коммутацией пакетов.

Клиент : Компьютер, подключенный к сети, который не хранит все данные или программное обеспечение, которые он использует, а извлекает их по сети с другого компьютера, выступающего в качестве сервера.См. также: Архитектура клиент-сервер, Сервер.

Архитектура клиент-сервер : Архитектура компьютерной сети, которая размещает часто используемые ресурсы на централизованно доступных компьютерах-серверах, которые могут быть получены по мере необходимости клиентскими компьютерами в сети. См. также: Клиент, Сервер.

Управление с обратной связью : Полностью автоматизированный метод управления системой, при котором никакая часть системы управления не должна передаваться человеку. См. также: Управление без обратной связи.

Кластеризация: Алгоритм, объединяющий похожие объекты и разделяющий их.

Код : В медицинских терминологических системах уникальный числовой идентификатор, связанный с медицинским понятием, который может быть связан с множеством терминов, имеющих одинаковое значение. См. также: Срок.

Когнитивная наука : междисциплинарная область, изучающая когнитивные процессы человека, включая их связь с технически воплощенными моделями познания.См. также: Искусственный интеллект.

Коммуникационный протокол: Правила, управляющие тем, как может проходить разговор между хорошо ведущими себя агентами. См. также: Семиуровневая модель OSI.

Комплементарная ДНК (кДНК): ДНК, синтезированная из матричной РНК-матрицы; одноцепочечная форма часто используется в качестве зонда при физическом картировании или для обнаружения РНК. Поскольку кДНК построена из матричной РНК (после сплайсинга интронов), она не содержит интронов.

Сложная адаптивная система : Система, характеризующаяся высокой сложностью и способностью изменять структуру на основе источника изменчивости и функции пригодности.

Сложность : Степень связи между различными компонентами системы.

Компьютерная сеть : Для компьютеров любая совокупность компьютеров, соединенных друг с другом таким образом, что они могут обмениваться данными, что позволяет обмениваться данными или программами.

Компьютеризированный протокол : Клинические рекомендации или протоколы, хранящиеся в компьютерной системе, чтобы к ним можно было легко получить доступ или манипулировать ими для оказания помощи.См. также: Клинические рекомендации.

Условная вероятность: Вероятность того, что одно событие истинно, при условии, что другое событие истинно. См. Теорема Байеса.

Коннекционизм : Изучение теории и применения нейронных сетей. См.: Нейронная сеть.

Согласие : Явное согласие разрешить другой стороне выполнять действия от нашего имени. См. также: Электронное согласие.

Система управления : Система, которая использует измерение своих выходных данных и обратную связь, чтобы влиять на будущее поведение на основе измерения прошлой производительности.См.: Система, обратная связь, кибернетика.

CPOE : Компьютеризированный ввод врачебных распоряжений. Клиническая информационная система, предназначенная для поддержки таких задач, как заказ анализов или лекарств.

CPR : Компьютерная запись пациента. См.: Электронная медицинская карта.

CSCW : Компьютер поддерживает совместную работу. Изучение компьютерных систем, разработанных для поддержки совместной работы групп людей. См. также: Программное обеспечение для совместной работы.

Кибернетика : Название, придуманное Норбертом Вайнером в 1950-х годах для описания изучения систем управления с обратной связью и их применения.Было замечено, что такие системы демонстрируют свойства, связанные с человеческим интеллектом и робототехникой, и поэтому они внесли ранний вклад в теорию искусственного интеллекта.

Киберпространство : Популярный термин, в настоящее время связанный с Интернетом, который описывает условное информационное «пространство», созданное в компьютерных сетях. См. также: Виртуальная реальность.

Данные: Любые и все комплексные объекты данных из наблюдений, экспериментов, симуляций, моделей и сборок более высокого порядка вместе с соответствующей документацией, необходимой для их описания и интерпретации.

Интеграция данных: Процесс объединения разрозненных данных и предоставления единого представления этих данных.

Интеллектуальный анализ данных: Автоматический поиск шаблонов или ассоциаций в больших объемах данных.

Хранилище данных : информационная инфраструктура, которая позволяет исследователям и врачам получать доступ и анализировать подробные данные и тенденции. Создан путем сбора баз данных и их связывания с использованием общих элементов данных.

База данных : Структурированное хранилище данных, состоящее из набора данных и связанной с ними модели данных и обычно хранимое в компьютерной системе.Наличие регулярной и формальной структуры индексации позволяет быстро находить отдельные элементы базы данных. См. также: Модель, База знаний.

Система поддержки принятия решений : Общий термин для любого компьютерного приложения, улучшающего способность человека принимать решения.

Дерево решений : Метод представления знаний, который структурирует элементы решения в виде дерева. Узлы шансов в дереве решений представляют альтернативные возможности, а узлы решений представляют альтернативные варианты.Листовые узлы дерева представляют результаты, которым можно присвоить числовую полезность. См. также: Утилита.

DECT : Европейский стандарт цифровой беспроводной телефонии, который определяет архитектуру для систем беспроводной передачи голоса и данных, ограниченных территориями размером с кампус, а не глобальными системами, которые были бы общедоступны.

Вычет . Метод логического вывода. Учитывая причину, дедукция выводит все логические следствия, которые могут возникнуть как следствие.См. также: Вывод, Абдукция, Индукция.

Дезоксирибонуклеиновая кислота (ДНК): Химическое вещество, составляющее основу генетического материала практически всех живых организмов. Структурно ДНК состоит из двух нитей, которые переплетаются, образуя пружинообразную структуру, называемую двойной спиралью. К каждому остову прикреплены химические структуры, называемые основаниями (или нуклеотидами), которые выступают от остова к центру спирали и бывают четырех типов: аденин, цитозин, гуанин и тимин (обозначаются A, C, G, и т).В ДНК цитозин образует оптимальные водородные связи только с гуанином, а аденин — только с тимином. Эти взаимодействия между многими нуклеотидами в каждой цепи удерживают две цепи вместе.

Распределенные вычисления : Термин для компьютерных систем, в которых данные и программы распределяются по разным компьютерам в сети и совместно используются.

Секвенирование ДНК: Биохимические методы определения порядка нуклеотидных оснований, аденина, гуанина, цитозина и тимина в олигонуклеотиде ДНК.

DTMF : Многочастотный тональный сигнал набора номера. Тоны, генерируемые набором цифр на клавиатуре телефона.

Электронное согласие : Явное согласие пациента разрешить другой стороне просматривать свои данные, записанные в электронной медицинской карте. См. также: Согласие.

EDI : Электронный обмен данными. Общий термин, описывающий потребность медицинских приложений в возможности обмена данными, требующий принятия согласованных общих стандартов для формы и содержания сообщений, передаваемых между приложениями.См. также: HL7.

Электронная медицинская карта (EHR) : Общий термин, описывающий компьютерные системы карт пациентов. Иногда он расширяется, включая такие функции, как ввод заказов на лекарства и тесты, среди прочего. См. также Электронная медицинская карта, Электронная медицинская карта, Краткая медицинская карта.

Электронная почта : См. Электронная почта.

Электронная медицинская карта (EMR) : Общий термин, описывающий компьютерные системы карт пациентов, предназначенные в основном для использования врачами.

Электронная медицинская карта (ENR) : Общий термин, описывающий компьютерные системы медицинской документации, предназначенные в основном для использования медсестрами.

Электрофорез: Использование электрических полей для разделения заряженных биомолекул, таких как ДНК, РНК и белки. ДНК и РНК несут суммарный отрицательный заряд из-за многочисленных фосфатных групп в их структуре. В процессе гель-электрофореза эти биомолекулы помещают в лунки твердой матрицы, обычно изготовленной из инертного вещества, такого как агароза.Когда этот гель помещают в ванну и к гелю прикладывают электрический заряд, биомолекулы мигрируют и разделяются по размеру пропорционально количеству заряда, который они несут. Биомолекулы можно окрашивать для просмотра, выделять и очищать от гелей для дальнейшего анализа. Электрофорез можно использовать для выделения чистых биомолекул из смеси или для анализа биомолекул (например, для секвенирования ДНК).

Электронная почта : Электронная почта. Система обмена сообщениями, доступная в компьютерных сетях, предоставляющая пользователям персональные почтовые ящики, из которых можно отправлять и получать электронные сообщения.

EMR : См.: Электронная медицинская карта.

Фермент: Белок, катализирующий химические реакции в живой клетке. Ферменты — это белковые молекулы, функция которых заключается в ускорении образования и разрыва химических связей, необходимых для основных физико-химических реакций.

Эпигенетика: Наследственное влияние на активность генов, не связанное с изменением самой последовательности ДНК.

Эпистемология : Философское изучение знания.

Эпитоп: Участки антигена, которые связываются с антиген-специфическими мембранными рецепторами лимфоцитов.

EPR : Электронная карта пациента. См.: Электронная медицинская карта.

Доказательная медицина : Движение, выступающее за применение медицинской практики в соответствии с клиническими рекомендациями, разработанными с учетом передовой практики, полученной в результате метаанализа клинической литературы. См. также: Клинические рекомендации, Метаанализ, Протокол.

Экзон: Кодирующая белок последовательность ДНК гена (см. Интрон).

Ожидаемая полезность : В теории принятия решений ожидаемая полезность решения представляет собой сумму полезностей одного и того же решения, повторенного в нескольких испытаниях. В пределе, с бесконечным числом решений, это сумма полезностей каждого возможного исхода этого варианта, каждый из которых взвешен по собственной вероятности. См. также: Дерево решений, полезность.

Ожидаемое значение : В теории вероятностей ожидаемое значение переменной представляет собой сумму всех ее значений в нескольких испытаниях.Ожидаемое значение среднего значения нормально распределенной двоичной переменной, которая может быть равна 0 или 1, равно 0,5.

Экспертная система : Компьютерная программа, которая содержит экспертные знания по конкретной проблеме, часто в форме набора правил «если-то», способная решать проблемы на уровне, эквивалентном или превышающем уровень экспертов-людей. См. также: Искусственный интеллект.

FAQ : Часто задаваемые вопросы. Общий термин для информационных списков, доступных в Интернете, которые были составлены для новичков в определенной теме, отвечая на общие вопросы, которые в противном случае часто задавались бы путем отправки запросов по электронной почте в группу новостей.

Обратная связь : Получение части или всего вывода системы и добавление его к собственному вводу системы. См. также: Система.

Конечный автомат : Представление знаний, которое делает различные состояния в процессе явными и связывает их ссылками, которые задают некоторые условия перехода, определяющие, как происходит переход от одного состояния к другому.

Брандмауэр : Защитный барьер, установленный между общедоступной компьютерной сетью, такой как Интернет, и локальной частной компьютерной сетью.

Основные принципы, основанные на: Использование модели механизмов, управляющих системой, для предсказания или имитации вероятного результата, если некоторые входные данные или внутренняя структура системы изменены. См. также: Система.

Ландшафт пригодности : Математическая поверхность, представляющая взаимосвязь между фенотипом и приспособленностью для организма, технологии, организации или другой конструкции, существующей в сложной адаптивной системе.

Формирующая оценка : Оценка производительности информационной системы в соответствии с потребностями пользователя.См. также: Суммативное оценивание.

FTP : Протокол передачи файлов. Компьютерный протокол, позволяющий единообразно отправлять и получать электронные файлы по компьютерной сети.

Функциональная геномика: Изучение функции генов и других частей генома.

Нечеткая логика : метод искусственного интеллекта для представления и рассуждений с неточно определенными знаниями, например, определение нечетких границ для различения «низких» и «высоких» значений.См. также: Качественные рассуждения, Искусственный интеллект.

Ген: Упорядоченная последовательность нуклеотидов, расположенных в определенном положении на определенной хромосоме, которая кодирует определенный функциональный продукт, такой как белок.

Генная онтология: Набор контролируемых словарей по молекулярным функциям, биологическим процессам и клеточным компонентам для стандартизированной аннотации генов и генных продуктов для всех видов.

Предсказание гена (или вызов гена): процедура идентификации последовательностей белков и РНК, закодированных в образце ДНК.

Генный продукт : Биохимический материал, либо РНК, либо белок, полученный в результате экспрессии гена. Количество генного продукта используется для измерения активности гена; аномальные количества могут быть коррелированы с аллелями, вызывающими заболевание. Поскольку генные продукты включают все продукты альтернативного сплайсинга, по оценкам, существует не менее 100 000 различных таких продуктов.

Генная терапия: Технология, использующая генетический материал в терапевтических целях.Этот генетический материал может быть в форме гена, репрезентативного гена или кДНК, РНК или даже небольшого фрагмента гена. Введенный генетический материал может быть терапевтическим несколькими способами: он может производить белок, дефектный или отсутствующий в клетках пациента (как в случае генетического расстройства), или который корректирует или модифицирует определенную клеточную функцию, или вызывает иммунный ответ.

Геном: Полный набор генетической информации в организме.У бактерий это включает хромосому(ы) и внехромосомную генетическую информацию, т.е. плазмиды.

Признаки на уровне генома : Характеристики генома или его продуктов, отличные от линейных последовательностей нуклеотидов или аминокислот, которые можно оценить для филогенетического анализа.

Полногеномное ассоциативное исследование: Исследование, в котором генетические маркеры во всем геноме, такие как однонуклеотидные полиморфизмы (SNP), изучаются на предмет связи с заболеванием, чтобы точно определить генетические различия, которые коррелируют с болезнью и, следовательно, могут играть ее причинную роль. при этом заболевании (эксперимент без предварительной гипотезы).

Геномика: Изучение всего генома организма; структурная геномика включает секвенирование всего генома, тогда как функциональная геномика направлена ​​на определение функций всех генов.

Генотип: Полная генетическая конституция организма или генетическая композиция в конкретном генном локусе или наборе локусов.

Грамматика : Набор правил, которые вместе определяют допустимые способы составления алфавита для формирования строк символов на данном языке.См.: Алфавит, Язык, Синтаксис.

Группа : Группа объединяет ряд различных кодов, связанных с медицинскими событиями, которые считаются достаточно похожими для какой-либо цели, например. определение соответствующего возмещения расходов на примерно аналогичные клинические процедуры или заболевания. См. также: Срок, Кодекс.

Программное обеспечение для совместной работы : Компьютерное приложение, которое помогает общаться и совместно работать среди групп лиц, имеющих доступ к общей компьютерной сети, но которые могут быть разделены географически или во времени.См. также: CSCW.

GSM : Глобальная система мобильности. Широко распространенный международный стандарт архитектуры и работы систем цифровой сотовой телефонии, которые могут передавать каналы передачи голоса и данных, а также короткие сообщения с пакетными данными.

GUI : Графический интерфейс пользователя. Та часть компьютерного приложения, которую пользователь видит и с которой взаимодействует. В частности, та часть интерфейса, которая основана на визуальных структурах, таких как значки, которые действуют как метафоры для различных функций, поддерживаемых приложением. e.г. удаление файла выполняется путем перетаскивания визуального символа, представляющего файл, на значок корзины.

Руководство : Согласованный набор шагов, которые необходимо предпринять при лечении клинического состояния. См. также: Алгоритм, Схема лечения, Практический параметр, Протокол.

Аппаратное обеспечение : Для компьютерной системы все ее физические компоненты, в отличие от программ и данных, которыми управляет компьютер. См. также: Программное обеспечение.

Обмен медицинской информацией : Компьютерная сеть, предназначенная для того, чтобы различные клинические информационные системы могли соединяться и обмениваться данными на уровне пациентов.

Эвристика : Эмпирическое правило, которое описывает, как вещи обычно понимаются, не прибегая к более глубоким или более формальным знаниям. См. Также: Рассуждения на основе моделей.

HIS : Больничная информационная система. Обычно используется для описания больничных компьютерных систем с такими функциями, как прием и выписка пациентов, ввод заказов на лабораторные анализы или лекарства, а также функции выставления счетов. См. также: Электронная медицинская карта.

HL7 (Health Level 7): Международный стандарт электронного обмена данными в здравоохранении, который определяет формат и содержание сообщений, передаваемых между медицинскими приложениями.

Домашняя страница : Документ во Всемирной паутине, который выступает в качестве первой страницы или приветствия для набора документов, которые могут представлять человека, организацию или интересующий объект.

Гомеостаз : Использование систем обратной связи для поддержания желаемого состояния. Часто используется для описания физиологических устойчивых состояний. См. также: Обратная связь.

Гомофилия : Предпочтение индивидов формировать социальные связи с другими людьми, имеющими схожие интересы, убеждения и поведение.См.: Социальная сеть.

Горизонтальный перенос генов: Любой процесс, при котором организм переносит генетический материал в другую клетку, которая не является его потомком. Этот процесс отличается от более распространенного вертикального переноса генов, когда генетическая информация передается от родителя к потомству

.

HTML : Язык разметки гипертекста. Язык описания, используемый для создания гипертекстовых документов, которые можно просмотреть во всемирной паутине. См. также: HTTP, Всемирная паутина.

HTTP : Протокол передачи гипертекста. Протокол связи, используемый в Интернете для передачи HTML-документов. См. также: HTML, Всемирная паутина.

Взаимодействие человека с компьютером : Изучение психологии и принципов проектирования, связанных с тем, как люди взаимодействуют с компьютерными системами.

Человеко-компьютерный интерфейс : «Вид», представляемый программой пользователю. Часто буквально визуальное окно, которое позволяет работать с программой, интерфейс с тем же успехом может быть основан на распознавании и синтезе речи или любого другого средства, с помощью которого человек может ощущать или манипулировать.

Гибридизация: Взаимодействие комплементарных цепей нуклеиновых кислот. Поскольку ДНК представляет собой двухцепочечную структуру, удерживаемую вместе за счет комплементарных взаимодействий (в которых С всегда связывается с G, а А с Т), комплементарные нити благоприятно отжигаются или «гибридизуются» друг с другом при разделении.

Гиперссылка : Связь между гипертекстовыми документами, которая позволяет читателю проследить понятия, встречающиеся в одном документе, до связанных с ними вхождений в других документах.

Гипертекст : Метод представления документов в электронном виде, который позволяет их читать взаимосвязанным образом. Вместо того, чтобы следовать одному документу от начала до конца, разделы каждого документа связаны с соответствующими вхождениями в других документах через гиперссылки, что позволяет «нелинейно» читать, следуя концепциям, интересующим читателя. См. также: Гиперссылка, HTML, World Wide Web.

МКБ-9 : Международная классификация болезней, 9 -е издание .Опубликовано Всемирной организацией здравоохранения.

МКБ-10 : Международная классификация болезней, 10 -е издание . Опубликовано Всемирной организацией здравоохранения.

Внедрение : Действие по приспособлению технологической конструкции, такой как информационная система, в рабочую среду, такую ​​как организация. Также акт принятия дизайна и перевода его в работающую систему.

Наука внедрения : Изучение процесса внедрения.

Индикатор : Поддающееся измерению событие или количество, которое можно использовать для мониторинга системы, например прогрессирование заболевания или качество, эффективность или безопасность процесса оказания медицинской помощи.

Вероятность безразличия: Вероятность того, что лицо, принимающее решения, безразлично к текущему исходу (статус-кво) или делает ставку, которая может улучшить или ухудшить ситуацию. Используется для определения полезности в стандартном методе азартных игр. См. также: Standard Gamble, Utility.

Индукция : Метод логического вывода, используемый для установления взаимосвязей на основе наблюдений. Это процесс обобщения, который мы используем для создания моделей мира. См. также: Дедукция, Похищение, Вывод.

Инфектом: Система сетей взаимодействующих генов хозяина и патогена, белков и метаболитов, вовлеченных в процесс инфекции и заболевания.

Вывод : Логический вывод, сделанный с использованием одного из нескольких методов рассуждений, знаний и данных.См. также: Абдукция, Дедукция, Индукция.

Информационная супермагистраль : Популярный термин, связанный с Интернетом, используемый для описания его роли в глобальной массовой передаче информации.

Теория информации : Первоначально разработанная Клодом Шенноном, описывает объем данных, которые могут быть переданы по каналу с учетом конкретных методов кодирования и шума в сигнале. См.: Канал.

Интернет : Технически сеть компьютерных сетей.Сегодня это связано с определенной глобальной компьютерной сетью, которая общедоступна и на которой основана Всемирная паутина. См. также: ARPAnet, Всемирная паутина.

Интранет : Компьютерная сеть, основанная на технологиях Всемирной паутины и Интернета, но сфера действия которой ограничена организацией. Интранет может быть подключен к Интернету, чтобы между ним и другими интрасетями могла осуществляться связь и поток информации. См. также: Интернет, Всемирная паутина.

Интрон: Некодирующая часть гена, которая сплайсируется из зарождающегося транскрипта РНК в процессе создания транскрипта мРНК.Часто включает регуляторные элементы (т.е. сайты связывания) в дополнение к элементам промотора.

IP ( Межсетевой протокол): Протокол связи, позволяющий различным отдельным сетям взаимодействовать друг с другом. IP является основой коммуникационной инфраструктуры Интернета.

IP-адрес : Адрес компьютера в Интернете, который позволяет ему отправлять и получать сообщения от других компьютеров в Интернете.

ISDN : цифровая сеть с интеграцией служб.Цифровая телефонная сеть, предназначенная для предоставления каналов для передачи голоса и данных.

Изохронная связь : Процесс связи, который работает с регулярными интервалами для обеспечения определенной минимальной скорости передачи данных, например. отправка сообщения с гарантированной регулярностью в банкомате. См. также: Синхронная связь, Асинхронная связь, АТМ.

Приобретение знаний : Подспециальность искусственного интеллекта, обычно связанная с разработкой методов сбора человеческих знаний и преобразования их в форму, которую может использовать компьютер.См. также: Машинное обучение, Экспертная система, Эвристика.

База знаний: Структурированное хранилище знаний, состоящее из набора элементов знаний, таких как правила и связанная с ними модель данных, или Онтология . База знаний является основным компонентом экспертной системы . См. также: База данных, Модель, Онтология, Экспертная система.

Система, основанная на знаниях : См.: Экспертная система.

LAN : Локальная сеть.Компьютерная сеть, ограниченная обслуживанием компьютеров в небольшой местности. См. также: Интранет.

Язык : Формальный язык определяет способ создания сообщений. Язык строится из алфавита разрешенных символов, которые можно расположить в соответствии с правилами, определяющими синтаксис языка. См.: Грамматика.

Машинное обучение : Подспециальность искусственного интеллекта, связанная с разработкой методов для программного обеспечения, чтобы учиться на опыте или извлекать знания из примеров в базе данных.См. также: Искусственный интеллект, Приобретение знаний.

Список рассылки : Список адресов электронной почты для отдельных лиц. Используется для распространения информации среди небольших групп лиц, которые могут, например, иметь общие интересы. См. также: Электронная почта.

Medline: Библиографическая база данных, поддерживаемая Национальной медицинской библиотекой США, которая индексирует статьи, опубликованные в большинстве крупных биомедицинских журналов.

Мегабайт : 1 048 576 или 2 20 байт.См.: Байт.

Информационная РНК (мРНК): РНК, кодирующая белки и активная в клеточной цитоплазме.

Мета-анализ : Статистический метод, который объединяет результаты нескольких подобных экспериментов, надеясь, что улучшенная мощность, полученная из объединенных наборов данных, выявит статистически значимые закономерности, которые не могут быть идентифицированы в рамках меньших размеров выборки отдельных исследований.

Метагеномика: Высокопроизводительное исследование последовательностей нескольких геномов, извлеченных из образцов, содержащих смешанные микробные популяции.

Микрочип: Технология, используемая для одновременного изучения множества генов. Сотни образцов, содержащих ДНК или РНК, нанесены на предметное стекло в виде точек. Связывание комплементарных пар оснований из образца и последовательностей генов на предметном стекле можно измерить с помощью флуоресценции.

Микробиом: Коллективная система геномов всей микробной флоры человека.

Модель : Любое представление реального объекта или явления или шаблон для создания объекта или явления.

Рассуждения на основе моделей : Подход к разработке экспертных систем, который использует формально определенные модели систем, в отличие от более поверхностных эмпирических правил. См. также Эвристика, Искусственный интеллект.

Модем : Модулятор-демодулятор. Устройство, используемое для преобразования цифрового сигнала в тоны, которые могут передаваться по телефонному проводу.

Mosaic : первый общедоступный браузер World Wide Web для просмотра гипертекстовых документов, разработанный в CERN.

Многомерные данные: данные, охватывающие несколько уровней или контекст детализации или масштаба, при сохранении одной или нескольких общих связей, охватывающих такие уровни.

Мультимедиа : Компьютерные системы или приложения, способные обрабатывать данные в различных формах, включая неподвижные и видеоизображения, звук и текст.

Мутация: Любое изменение ДНК, которое потенциально может привести к изменению функции одного или нескольких генов. Мутации могут представлять собой изменение одного основания ДНК (точечная мутация) или потерю пар оснований (делеция), затрагивающую один ген, или перемещение хромосомных участков (транслокация), затрагивающее многие гены.Некоторые изменения в ДНК происходят естественным образом и не приводят к вредным последствиям; эти изменения в популяции называются полиморфизмами.

Сеть: Серия точек или узлов, соединенных между собой ребрами, ребра могут иметь направление или разные веса.

Нейронные вычисления : см. Коннекционизм.

Нейронная сеть : Компьютерная программа или система, предназначенная для имитации некоторых аспектов нейронных связей, включая суммирование потенциалов действия, рефрактерные периоды и пороги возбуждения.

Группа новостей : Служба доски объявлений, предоставляемая в компьютерной сети, такой как Интернет, где сообщения могут быть отправлены по электронной почте и просмотрены теми, кто интересуется содержанием конкретной группы новостей. См. также: Электронная почта, Интернет.

Секвенирование следующего поколения: Новые подходы к секвенированию ДНК, которые избавляют от необходимости создавать библиотеки последовательностей клонов в бактериях и обеспечивают более быстрое и дешевое секвенирование

Шум : Нежелательный сигнал, который добавляется к передаваемому сообщению при передаче по каналу и искажает сообщение для получателя.См.: канал.

Нозерн-блоттинг: РНК из образца пространственно разделяют и распределяют по массе на геле. Радиоактивно меченные нити ДНК или РНК с последовательностью, комплементарной сегментам РНК из образца, используются для определения положения этих сегментов РНК.

Объектно-ориентированное программирование : Компьютерные языки и философия программирования, которые подчеркивают модульность среди элементов программы и их общие свойства и взаимосвязь.

Олигонуклеотид : Короткая молекула, состоящая из нескольких связанных нуклеотидов (обычно от 10 до 60), связанных друг с другом и соединенных ковалентными связями.

Онтология: Формальное и строгое описание набора сущностей понятий в пределах совокупности знаний и отношений между ними. Онтология может помочь рассуждать о сущностях, определяя законные и бессмысленные отношения и выводы. Обычно представляется в виде иерархии, а часто и в виде богато взаимосвязанного набора объектов, понятий и других сущностей, воплощающих знания о данной области.См. также: База знаний, Язык.

Управление без обратной связи : Частично автоматизированный метод управления, при котором часть системы управления передается человеку.

Открытая рамка считывания: Области в нуклеотидной последовательности, которые ограничены стартовым и стоп-кодонами и, следовательно, являются возможными областями, кодирующими ген.

Открытая система : термин компьютерной индустрии для компьютерного оборудования и программного обеспечения, созданного в соответствии с общими общедоступными стандартами, что позволяет покупателям выбирать компоненты от различных поставщиков и использовать их вместе.

Ортологичный : Гомологичные гены в двух или более организмах, которые родственны только расщеплением клонов, а не дупликацией генов.

Семиуровневая модель OSI : Модель Международной организации по стандартизации (ISO), которая определяет уровни протокола для связи между разнородными компьютерами. См. также: протокол связи.

PABX : АТС общего пользования. Коммутационная станция телекоммуникационной сети, которая соединяет телефоны в зоне с более широкой телефонной сетью.

Сеть с коммутацией пакетов : Компьютерная сеть, которая обменивается сообщениями между различными компьютерами не путем использования выделенного канала, а путем отправки сообщения в виде нескольких пакетов одинакового размера по общим каналам, используемым совместно с другими компьютерами. См. Также: Сеть с коммутацией каналов.

Фармакогеномика: Изучение фармакологического ответа на лекарство в популяции на основе генетической изменчивости этой популяции. Давно известно, что разные люди в популяции по-разному реагируют на одно и то же лекарство и что эти различия связаны с различиями в молекулярных рецепторах, на которые действует лекарство, или с различиями в метаболических ферментах, которые выводят лекарство.Фармакогеномика – это наука об изучении этих вариаций на молекулярном уровне. Применение фармакогеномики включает уменьшение побочных эффектов, индивидуализацию лекарств, улучшение клинических испытаний и спасение некоторых лекарств, которые были запрещены из-за серьезных побочных эффектов у небольшого процента подходящей популяции.

Личная медицинская карта: Просмотр электронной медицинской карты, предназначенной для пациента, которая также может включать созданные пациентом записи. См. также: Электронная медицинская карта.

Фенотип: Наблюдаемые черты индивидуального человека. Некоторые черты в значительной степени определяются генотипом (например, группа крови), тогда как другие (например, рост) определяются факторами окружающей среды.

Рабочая станция врача : Компьютерная система, предназначенная для поддержки клинических задач врачей. См. также: Электронная медицинская карта.

Полимеразная цепная реакция (ПЦР): Метод, используемый для амплификации или создания больших количеств реплик ДНК или сегментов любой ДНК, чьи «фланкирующие» последовательности известны.Олигонуклеотидные праймеры, которые связывают эти фланкирующие последовательности, используются ферментом для копирования последовательности между праймерами. Циклы нагревания для разрыва нитей ДНК, охлаждения для связывания праймеров и повторного нагревания для того, чтобы фермент мог скопировать промежуточную последовательность, приводят к удвоению ДНК, присутствующей в каждом цикле.

Полиморфизм: Распространенная вариация в области последовательности ДНК

Апостериорная вероятность : Вероятность того, что событие произойдет со свидетельством как об априорной вероятности, так и о текущем рассматриваемом случае.См.: Теорема Байеса, Априорная вероятность.

Постскриптум : Коммерческий язык, описывающий общий формат электронных документов, которые могут быть поняты печатающими устройствами и преобразованы в бумажные документы или изображения на экране.

Апостериорная вероятность события : Апостериорная вероятность события после проверки истинности события. См.: Апостериорная вероятность, Предтестовая вероятность.

Практический параметр : См.: Care Pathway.

Точность .Процент элементов, правильно соответствующих заданному атрибуту, из всех элементов, определенных процедурой как соответствующие.

Предтестовая вероятность : Априорная вероятность события перед тестом. См.: Априорная вероятность, Послетестовая вероятность.

Априорная вероятность : Вероятность того, что событие произойдет в популяции, при отсутствии данных о рассматриваемом текущем случае. См. Теорема Байеса.

Зонд: Любой биохимический агент, помеченный или помеченный каким-либо образом, чтобы его можно было использовать для идентификации или выделения гена, РНК или белка.Обычно относится к иммобилизованной указанной нуклеиновой кислоте в системе обнаружения.

Протеомика: Изучение всего белкового дополнения или «белковой вселенной» клетки. Отражая геномику, протеомика стремится определить весь набор экспрессируемых белков в клетке. Это включает определение количества, уровня и оборота всех экспрессируемых белков, их последовательности и любых посттрансляционных модификаций последовательности, а также белок-белковых и белок-других молекулярных взаимодействий внутри клетки, через клеточную мембрану и между (секретируемыми). ) белки.

Протокол : набор инструкций, описывающих процедуру, которой необходимо следовать при исследовании определенного набора результатов у пациента, или метод, которого следует придерживаться при лечении данного заболевания. Руководство, практический параметр.

PSTN : Коммутируемая телефонная сеть общего пользования, предоставляющая обычные голосовые телефонные услуги.

Качественное рассуждение : Подспециальность искусственного интеллекта, связанная с выводом и представлением знаний, когда знания точно не определены, например.г. Расчеты «обратной стороны конверта».

Рандомизированное контролируемое исследование (РКИ) : Форма научного исследования, при котором пациентов случайным образом распределяют либо в группу, получающую новое лечение, либо в контрольную группу. Если пациенты или ученые не знают, к какой группе относятся пациенты, исследование является рандомизированным слепым контролируемым исследованием. См. также: Систематический обзор.

Читать коды : Система медицинской терминологии, первоначально разработанная для первичной медико-санитарной помощи в Великобритании.Впоследствии он был расширен и разработан для охвата медицинских концепций в самых разных ситуациях. См. также: Терминология.

Рамка считывания : последовательность кодонов, определяемая путем считывания нуклеотидов в группах по три из определенного начального положения.

Рассуждение : Метод мышления. См. также: Вывод.

Представление : метод, выбранный для моделирования процесса или объекта, например здания, может быть представлен в виде модели в физическом масштабе, чертежа или фотографии.См. также: Рассуждение, Синтаксис.

Рибонуклеиновая кислота (РНК): РНК образуется из матрицы ДНК в ядре клетки посредством процесса, называемого транскрипцией, а затем экспортируется из ядра в цитоплазму клетки, где начинается процесс синтеза белка.

Алгоритм, основанный на правилах: Алгоритмическая процедура, основанная на идентифицированном образце генотипа и представленная в виде набора пропозициональных правил.

Экспертная система на основе правил : См.: Экспертная система.

Поисковая машина : Компьютерная программа, способная искать информацию во Всемирной паутине (или в любой большой базе данных) на основе критериев поиска, заданных пользователем. См. также: Всемирная паутина.

Семантика : Значение, связанное с набором символов в данном языке, которое определяется синтаксической структурой символов, а также знаниями, зафиксированными в модели интерпретации. См. также: Синтаксис.

Выравнивание последовательностей: сравнение двух или более последовательностей путем поиска ряда отдельных символов или шаблонов, которые находятся в одном и том же порядке в последовательности.

Сервер : Компьютер в сети, который хранит часто используемые ресурсы, такие как данные или программы, и делает их доступными по запросу для клиентов в сети. См. также: Клиент, Клиент-серверная архитектура.

SGML : Стандартный общий язык разметки. Язык определения документа, используемый при печати, и используемый в качестве основы для создания HTML. См. также: HTML.

Отношение сигнал/шум : Мера количества шума, добавленного к сообщению во время передачи.См.: канал, теория информации.

Однонуклеотидный полиморфизм (SNP): Участки в геноме, где отдельные организмы различаются последовательностью ДНК, часто одним основанием, обычно с очень низкой популяционной частотой.

SNOMED : Систематизированная номенклатура медицины человека и ветеринарии. Коммерчески доступная общая медицинская терминология, первоначально разработанная для классификации патологических образцов. См. также: Терминология.

Социальное заражение : Передача поведения или убеждений через социальную сеть.

Социальная сеть : Совокупность сильных и слабых связей, объединяющих людей в социальную группу.

Социальные сети : Программное приложение, предназначенное для поддержки взаимодействия между группой лиц, а также для управления созданием новых связей между людьми.

Социально-техническая система : Система, созданная, когда люди и технология вместе взаимодействуют в организации, подчеркивая, что как социальные, так и технологические особенности человека влияют на общее поведение системы.

Программное обеспечение : Синоним компьютерной программы. См. также: Заявление.

Саузерн-блоттинг: ДНК из образца разрезают рестрикционными ферментами и положение фрагментов (например, на геле) определяют по молекулярной массе фрагмента. Комплементарные нити радиоактивно меченой ДНК используются для определения положения фрагментов ДНК на геле.

Стандартная игра : Метод, позволяющий человеку выразить предпочтение исходу, ценность которого неизвестна, как предпочтение игре, в которой ценность исходов известна.См. также: Вероятность безразличия, полезность.

Краткая история болезни (SCR) : Общий термин, описывающий высокоуровневое представление компьютерной карты пациента, обычно ограниченное небольшим количеством элементов информации, которые считаются наиболее полезными для быстрого получения общего представления о состоянии здоровья пациента. См. также: Электронная медицинская карта.

Итоговая оценка : Оценка информационной системы по формальным функциональным метрикам или организационным показателям результатов.См. также: Формирующее оценивание.

Символ : Представление, которое используется для обозначения более сложной концепции. См.: Модель.

Синхронная связь : Режим связи, при котором две стороны обмениваются сообщениями по каналу связи в одно и то же время, т.е. телефоны. См. также: Асинхронная связь, Изохронная связь.

Синтаксис : Правила грамматики, определяющие формальную структуру языка. См. также: Семантика.

Система : Совокупность составляющих идей, процессов или объектов, имеющих вход и выход. См. также: Обратная связь.

Систематический обзор : Формальный процесс поиска и последующего обобщения данных, содержащихся в научных статьях, для получения совокупного представления. В процессе рецензирования используются статистические методы для надлежащего объединения отдельных статистических результатов каждой статьи, что в идеале является рандомизированным исследованием. См. также рандомизированное контролируемое исследование.

Систематизированная медицинская номенклатура (SNOMED): стандартная словарная система для медицинских баз данных; содержит более 144 000 терминов и доступен как минимум на двух языках. Разработан Колледжем американских патологоанатомов.

Telco : сокращение от телекоммуникационной компании.

Телеконсультация : Клиническая консультация, проводимая с использованием телемедицинской службы. См. также: Телемедицина.

Телемедицина : Предоставление медицинских услуг между географически разделенными лицами с использованием телекоммуникационных систем e.г. видео-конференция.

Термин : В медицинской терминологии общепринятое название медицинского состояния или лечения. См. также: Кодекс, Терминология.

Терминал : Система экрана и клавиатуры, обеспечивающая доступ к общей компьютерной системе, т.е. мэйнфрейм или мини-компьютер. В отличие от компьютеров в современной сети, терминалы не являются самостоятельными компьютерами.

Терминология : Стандартный набор символов или слов, используемых для описания понятий, процессов и объектов данной области исследования.См. также: Срок.

Транскрипция: Синтез РНК из ДНК.

Фактор транскрипции: Молекула, обычно белок, которая связывается с сайтами связывания ДНК, играя некоторую регулирующую роль в транскрипции. Связывание (или отсоединение) фактора транскрипции от промотора в конечном итоге приводит к изменению активности транскрипции в гене, контролируемом этим промотором.

Перевод: Процесс чтения оснований последовательности в матричной РНК для создания последовательности аминокислот i.е. белок.

Доля истинно отрицательных результатов (специфичность): процент элементов, правильно определенных процедурой как не соответствующие заданному атрибуту, из всех возможных несовпадающих элементов.

Доля истинно положительных результатов (Чувствительность): процент элементов, правильно определенных процедурой как соответствующие заданному атрибуту, из всех возможных правильных элементов.

Тест Тьюринга : Предложенный Аланом Тьюрингом тест предполагает, что артефакт можно считать разумным, если люди не могут отличить его поведение от других людей в контролируемых обстоятельствах.См. также: Искусственный интеллект.

Единая медицинская языковая система (UMLS): Комплексный метасловарь, поддерживаемый Национальной медицинской библиотекой, который объединяет более 100 отдельных стандартизированных словарей. UMLS состоит из метатезауруса, специализированного лексикона и семантической сети. Крупнейшим компонентом UMLS является метатезаурус, который содержит строку терминов, группировку терминов и взаимосвязь концепций.

Универсальный генетический код : неправильное название, основанное на более раннем ошибочном убеждении, что все геномы имеют один и тот же код для определения аминокислот из триплетов нуклеотидов.

URL-адрес : Универсальный указатель ресурсов. Адрес документа, размещенного во всемирной паутине. См. также: Всемирная паутина.

Пользовательский интерфейс : представление пользователя о компьютерной программе, обычно понимаемое как визуальное представление программы, но также распространяющееся на другие способы взаимодействия, например. голос и прикосновение.

Полезность: Количественная мера, присвоенная результату, выражающая предпочтение этого результата по сравнению с другими.См. также: Дерево решений.

Ценность информации (VOI): экономическая ценность, которая может быть оценена при получении определенных данных до принятия решения. VOI иногда измеряется как разница между двумя результатами, измеряемыми как ожидаемая полезность. См. также: Ожидаемая полезность.

Виртуальная реальность : Смоделированная компьютером среда, в которой люди могут взаимодействовать таким образом, который приближается к взаимодействию в физическом мире.

Фактор вирулентности: Белок или ген, необходимые для того, чтобы патоген вызывал заболевание.

Словарь : См. Терминология.

Голосовая почта : Компьютерная телефонная система обмена сообщениями, способная записывать и сохранять сообщения для последующего просмотра или другой обработки, напр. пересылка другим пользователям. См. также: Электронная почта.

W3 : См.: World Wide Web.

WAN : Глобальная сеть. Компьютерная сеть, выходящая за пределы локальной области, такой как кампус или офис.См. также: ЛВС.

Полногеномное короткое секвенирование: Подход к определению последовательности генома, при котором геном разбит на множество мелких фрагментов. Затем эти фрагменты собираются вместе. Отдельные последовательности собираются в более крупные последовательности (известные как контиги), которые соответствуют существенным частям генома.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *