Информатика классификация: Информация и данные. Классификация информации по месту возникновения, стабильности, стадиям обработки, способу отображения, выполняемым функциям. Системы классификации и кодирования информации.

Содержание

Информация и данные. Классификация информации по месту возникновения, стабильности, стадиям обработки, способу отображения, выполняемым функциям. Системы классификации и кодирования информации.

Стр 1 из 3Следующая ⇒

Информация и данные. Классификация информации по месту возникновения, стабильности, стадиям обработки, способу отображения, выполняемым функциям. Системы классификации и кодирования информации.

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах, состоянии, которые уменьшают степень неопределенности, неполноты знаний.

Информация - концептуально связанные данные между собой, изменяющие представление о мире и окружающих явлениях.

Данные - признаки или наблюдения, которые не используются, а лишь хранятся.

Одной из важнейших разновидностей информации является информация экономическая - совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в непроизводственной и производственной сфере.

При работе с информацией всегда имеется источник и потребитель, а также канал связи. Для потребителя важной характеристикой информации является ее адекватность - определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту и процессу.

Классификация-система распределения объектов по классам в соответствии с определенным признаком.

· Классификация по месту возникновения - входная, выходная, внутрення, внешняя.

· По стадиям обработки – первичная (возникает в процессе деятельности), вторичная (получается в результате обработки первичной) и бывает промежуточная (исходные данные для последующих расчетов) и результатная (для выработки управленческих решений).

· По способу отображения – текстовая (алфавитные, цифровые символы) и графическая (графики, диаграммы, рисунки).

· По стабильности – переменная (меняется для каждого случая как по назначению так и кол-ву) и постоянная (условно-постоянная - неизменная и многократно используемая в течение длительного периода времени).

· По функциям управления: экономическая информация плановая, учетная, нормативно-справочная, оперативная.

Системы классификации и кодирования информации

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный.

Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации.

Системы кодирования.

Кодирование - это процесс присвоения условных обозначений объектам и классификационным группам по соответствующей системе кодирования.

Система кодирования - это совокупность правил обозначения объектов и группировок с использованием кодов.

Код - это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определенном алфавите (некоторое множество знаков).

Число знаков этого множества называется основанием.

Особенностью регистрационных систем кодирования является их независимость от применяемых систем классификации. Регистрационные коды используются для идентификации объектов и передачи информации об объектах на расстояние. К регистрационным системам относятся порядковая и серийная системы кодирования.

Классификационные коды используют для отражения классификационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации на компьютере, отсюда вытекают требования: однозначности отображения классификационных взаимосвязей объектов и их группировок и обеспечения максимальной простоты программирования.

Выбор конкретной системы кодирования зависит от объема кодируемой номенклатуры, ее стабильности, от задач, стоящих перед системой, и от показателей эффективности обработки информации при использовании какой-либо системы.

 

Билет 18

Информация и данные. Классификация информации по месту возникновения, стабильности, стадиям обработки, способу отображения, выполняемым функциям. Системы классификации и кодирования информации.

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах, состоянии, которые уменьшают степень неопределенности, неполноты знаний.

Информация - концептуально связанные данные между собой, изменяющие представление о мире и окружающих явлениях.

Данные - признаки или наблюдения, которые не используются, а лишь хранятся.

Одной из важнейших разновидностей информации является информация экономическая - совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в непроизводственной и производственной сфере.

При работе с информацией всегда имеется источник и потребитель, а также канал связи. Для потребителя важной характеристикой информации является ее адекватность - определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту и процессу.

Классификация-система распределения объектов по классам в соответствии с определенным признаком.

· Классификация по месту возникновения - входная, выходная, внутрення, внешняя.

· По стадиям обработки – первичная (возникает в процессе деятельности), вторичная (получается в результате обработки первичной) и бывает промежуточная (исходные данные для последующих расчетов) и результатная (для выработки управленческих решений).

· По способу отображения – текстовая (алфавитные, цифровые символы) и графическая (графики, диаграммы, рисунки).

· По стабильности – переменная (меняется для каждого случая как по назначению так и кол-ву) и постоянная (условно-постоянная - неизменная и многократно используемая в течение длительного периода времени).

· По функциям управления: экономическая информация плановая, учетная, нормативно-справочная, оперативная.



Читайте также:

 

Классификация информации

Информация (от лат. informatio, разъяснение, изложение, осведомленность) — любые сведения и данные, отражающие свойства объектов в природных, социальных и технических системах и передаваемые звуковым, графическим (в т. ч. письменным) или иным способом без применения или с применением технических средств.

Информацию можно разделить на виды по различным критериям:

1. по способу восприятия:

  • Визуальная — воспринимаемая органами зрения.

  • Аудиальная — воспринимаемая органами слуха.

  • Тактильная — воспринимаемая тактильными рецепторами.

  • Обонятельная — воспринимаемая обонятельными рецепторами.

  • Вкусовая — воспринимаемая вкусовыми рецепторами.

2. по форме представления:

  • Текстовая — передаваемая в виде символов, предназначенных обозначать лексемы языка.

  • Числовая — в виде цифр и знаков, обозначающих математические действия.

  • Графическая — в виде изображений, предметов, графиков.

  • Звуковая — устная или в виде записи и передачи лексем языка.

3. по назначению:

  • Массовая — содержит тривиальные сведения и оперирует набором понятий, понятным большей части социума.

  • Специальная — содержит специфический набор понятий, при использовании происходит передача сведений, которые могут быть не понятны основной массе социума, но необходимы и понятны в рамках узкой социальной группы, где используется данная информация.

  • Секретная — передаваемая узкому кругу лиц и по закрытым (защищённым) каналам.

  • Личная (приватная) — набор сведений о какой-либо личности, определяющий социальное положение и типы социальных взаимодействий внутри популяции.

4. по значению:

  • Актуальная — информация, ценная в данный момент времени.

  • Достоверная — информация, полученная без искажений.

  • Понятная — информация, выраженная на языке, понятном тому, кому она предназначена.

  • Полная — информация, достаточная для принятия правильного решения или понимания.

  • Полезная — полезность информации определяется субъектом, получившим информацию в зависимости от объёма возможностей её использования.

5. по истинности:

  • истинная

  • ложная

Информация обладает следующими свойствами:

  1. достоверность 

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений. Достоверная информация обладает свойством устаревать, т. е. переста­ет отражать истинное положение дел.

  1. полнота

Информация полна, если ее достаточно для понимания и принятия ре­шений. Как неполная, так и избыточная информация сдерживает принятие ре­шений или может повлечь ошибки.

  1. точность

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления.

  1. ценность

Ценность информации зависит от того, насколько она важна для реше­ния задачи, а также от того, насколько в дальнейшем она найдет применение в каких-либо видах деятельности человека.

  1. своевременность

Только своевременно полученная информация может принести ожидае­мую пользу. Одинаково нежелательны как преждевременная подача информации (когда она еще не может быть усвоена), так и ее задержка.

  1. понятность 

Если ценная и своевременная информация выражена непонятным обра­зом, она может стать бесполезной. Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

  1. доступность

Информация должна преподноситься в доступной (по уровню восприя­тия) форме. Поэтому одни и те же вопросы по-разному излагаются в школь­ных учебниках и научных изданиях.

  1. краткость

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, всевозмож­ных инструкциях.

Количество информации можно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений. Это позволяет количественно измерять информацию. Существует формула, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение: N = 2i (формула Хартли). Иногда записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность  p = 1 / N, то N = 1 / p и формула имеет вид I = log2 (1/p) = - log2 p

Если события неравновероятные, то: hi = log2 1/pi = - log2 pi,

где pi - вероятность появления в сообщении i-го символа алфавита. Удобнее в качестве меры количества информации пользоваться не значением hi , а средним значением количества информации, приходящейся на один символ алфавита H = S pi hi = - S pi log2 pi

Значение Н достигает максимума при равновероятных событиях, то есть при равенстве всех pi pi = 1 / N

В этом случае формула Шеннона превращается в формулу Хартли.

За единицу количества информации принимается такое количество информации, которое содержится в информационном сообщении, уменьшающем неопределенность знания в два раза. Такая единица названа битом.

Минимальной единицей измерения количества информации является бит, а следующей по величине единицей - байт, причем:

1 байт = 8 битов = 23 битов.

В информатике система образования кратных единиц измерения несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10n, где n = 3, 6, 9 и т. д., что соответствует десятичным приставкам "Кило" (103), "Мега" (106), "Гига" (109) и т. д.

В компьютере информация кодируется с помощью двоичной знаковой системы, и поэтому в кратных единицах измерения количества информации используется коэффициент 2n

Так, кратные байту единицы измерения количества информации вводятся следующим образом:

1 килобайт (Кбайт) = 210 байт = 1024 байт;

1 мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт;

1 гигабайт (Гбайт) = 210 Мбайт = 1024 Мбайт.

Количество информации в сообщении. Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Если знаки несут одинаковое количество информации, то количество информации Ic в сообщении можно подсчитать, умножив количество информации Iз, которое несет один знак, на длину кода (количество знаков в сообщении) К:

Ic = Iз  K

Так, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию в 2 бита, три цифры - в 3 бита и т. д. Количество информации в битах равно количеству цифр двоичного компьютерного кода

Двоичный компьютерный код

1

0

1

0

1

Количество информации

1 бит

1 бит

1 бит

1 бит

1 бит

Информацио́нная энтропи́я — мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.

Энтропия стала использоваться как мера полезной информации в процессах передачи сигналов по проводам. Под информацией Шеннон понимал сигналы нужные, полезные для получателя. Неполезные сигналы, с точки зрения Шеннона, это шум, помехи. Если сигнал на выходе канала связи является точной копией сигнала на входе то, с точки зрения теории информации, это означает отсутствие энтропии. Отсутствие шума означает максимум информации. Взаимосвязь энтропии и информации нашло отражение в формуле: H + Y = 1

где Н – энтропия, Y – информация. Этот вывод количественно был обоснован Бриллюэном .

Для расчета энтропии Шеннон предложил уравнение, напоминающее классическое выражение энтропии, найденное Больцманом. H = ∑Pi log2 1/Pi = -∑Pi log2 Pi,

где Н – энтропия Шеннона, Pi - вероятность некоторого события.

Информационная двоичная энтропия для независимых случайных событий с возможными состояниями (от до , — функция вероятности) рассчитывается по формуле:

Эта величина также называется средней энтропией сообщения. Величина называется частной энтропией, характеризующей только -e состояние.

Таким образом, энтропия события является суммой с противоположным знаком всех произведений относительных частот появления события , умноженных на их же двоичные логарифмы. Это определение для дискретных случайных событий можно расширить для функции распределения вероятностей.

Классификация информации. методы получения информации. свойства информации.

Классификация информации

Информацию можно разделить на виды по нескольким признакам.

По способу восприятия

Для человека информация подразделяется на виды в зависимости от типа воспринимающих её рецепторов.

§ Визуальная — воспринимаемая органами зрения.

§ Аудиальная — воспринимаемая органами слуха.

§ Тактильная — воспринимаемая тактильными рецепторами.

§ Обонятельная — воспринимаемая обонятельными рецепторами.

§ Вкусовая — воспринимаемая вкусовыми рецепторами.

По форме представления

По форме представления информация делится на следующие виды.

§ Текстовая — передаваемая в виде символов, предназначенных обозначать лексемы языка.

§ Числовая — в виде цифр и знаков, обозначающих математические действия.

§ Графическая — в виде изображений, событий, предметов, графиков.

§ Звуковая — устная или в виде записи передача лексем языка аудиальным путём.

По предназначению

§ Массовая — содержит тривиальные сведения и оперирует набором понятий, понятным большей части социума.

§ Специальная — содержит специфический набор понятий, при использовании происходит передача сведений, которые могут быть не понятны основной массе социума, но необходимы и понятны в рамках узкой социальной группы, где используется данная информация.

§ Личная — набор сведений о какой-либо личности, определяющий социальное положение и типы социальных взаимодействий внутри популяции.

Методы получения информации можно разбить на три большие группы.

  1. Эмпирические методы или методы получения эмпирических данных.
  2. Теоретические методы или методы построения различных теорий.
  3. Эмпирико-теоретические методы (смешанные) или методы построения теорий на основе полученных эмпирических данных об объекте, процессе, явлении.

Охарактеризуем кратко эмпирические методы.

  1. Наблюдение – сбор первичной информации об объекте, процессе, явлении.
  2. Сравнение – обнаружение и соотнесение общего и различного.
  3. Измерение – поиск с помощью измерительных приборов эмпирических фактов.
  4. Эксперимент – преобразование, рассмотрение объекта, процесса, явления с целью выявления каких-то новых свойств.

Кроме классических форм их реализации, в последнее время используются опрос, интервью, тестирование и другие.

Охарактеризуем кратко эмпирико-теоретические методы.

  1. Абстрагирование – выделение наиболее важных для исследования свойств, сторон исследуемого объекта, процесса, явления и игнорирование несущественных и второстепенных.
  2. Анализ – разъединение целого на части с целью выявления их связей.
  3. Декомпозиция – разъединение целого на части с сохранением их связей с окружением.
  4. Синтез – соединение частей в целое с целью выявления их взаимосвязей.
  5. Композиция — соединение частей целого с сохранением их взаимосвязей с окружением.
  6. Индукция – получение знания о целом по знаниям о частях.
  7. Дедукция – получение знания о частях по знаниям о целом.
  8. Эвристики, использование эвристических процедур – получение знания о целом по знаниям о частях и по наблюдениям, опыту, интуиции, предвидению.
  9. Моделирование (простое моделирование), использование приборов – получение знания о целом или о его частях с помощью модели или приборов.
  10. Исторический метод – поиск знаний с использованием предыстории, реально существовавшей или же мыслимой.
  11. Логический метод – поиск знаний путем воспроизведения частей, связей или элементов в мышлении.
  12. Макетирование – получение информации по макету, представлению частей в упрощенном, но целостном виде.
  13. Актуализация – получение информации с помощью перевода целого или его частей (а следовательно, и целого) из статического состояния в динамическое состояние.
  14. Визуализация – получение информации с помощью наглядного или визуального представления состояний объекта, процесса, явления.

Кроме указанных классических форм реализации теоретико-эмпирических методов часто используются и мониторинг (система наблюдений и анализа состояний), деловые игры и ситуации, экспертные оценки (экспертное оценивание), имитация (подражание) и другие формы.

Охарактеризуем кратко теоретические методы.

  1. Восхождение от абстрактного к конкретному – получение знаний о целом или о его частях на основе знаний об абстрактных проявлениях в сознании, в мышлении.
  2. Идеализация – получение знаний о целом или его частях путем представления в мышлении целого или частей, не существующих в действительности.
  3. Формализация – получение знаний о целом или его частях с помощью языков искусственного происхождения (формальное описание, представление).
  4. Аксиоматизация – получение знаний о целом или его частях с помощью некоторых аксиом (не доказываемых в данной теории утверждений) и правил получения из них (и из ранее полученных утверждений) новых верных утверждений.
  5. Виртуализация – получение знаний о целом или его частях с помощью искусственной среды, ситуации.

Свойства информации

Адекватность информации- это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т. п.

Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C = Ic/Vд .

Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:

  • правильность концепции, на базе которой сформулировано исходное понятие;
  • обоснованность отбора существенных признаков и связей отображаемого явления.

Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.

Доступность информации для восприятия пользователем обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователем форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.

Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.

Своевременность информацииозначает ее поступление не позже заранее назначенного момента времени, согласованного со временем решения поставленной задачи.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны 4 классификационных понятия точности:

  • формальная точность, измеряемая значением единицы младшего разряда;
  • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
  • максимальная точность, которую можно получить в конкретных условиях функционирования системы;
  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

Статьи к прочтению:

Получение концентрированной азотной кислоты


Похожие статьи:
  • Вопрос 2 свойства информации

    Итак, информация является динамическим объектом, образующимся в момент взаимодействия объективных данных и субъективных методов. Как и всякий объект, она…

  • Методы представления информации.

    Ответы к зачету по ИТ. 1. Информатика— наука о способах получения, накопления, хранения, преобразования, передачи, защиты и использования информации….

какие параметры используются — «ИнфоСорт»

Меню ИнфоСорт
  • Главная
  • Категории
    • Информационные технологии
      • Работа с компьютером
      • SEO, маркетинг
    • Автомобили
      • Автомобильные новости
      • Ремонт автомобиля
      • Кроссоверы и внедорожники
      • ПДД
    • Hi-Tech
      • Смартфоны
    • Образование
      • Школьное образование
      • Разное про образование
    • Строительство и ремонт
      • Ремонт
      • Стройка
      • Инструменты и оборудование
    • Материнство и отцовство
      • Развлечение детей
    • Покупки за рубежом
      • Инструкции покупок за рубежом
      • Товары из Китая
    • Покупки
      • Все о шопинге
    • Общество
      • Интернет сообщество
      • Праздники
    • Финансы
      • Кредитование
      • Инвестирование
      • Страхование
      • Банки
    • Полезная информация
      • Екатеринбург
    • Фильмы и сериалы
      • Новости фильмов
    • Растения и декор
      • Разное про растения
    • Здоровье
      • Медицина
      • Здоровый образ жизни
    • Психология
    • Искусство
    • Новости спорта
    • Рецепты
    • Разное про готовку
    • Бытовая техника
    • Домашнее хозяйство
    • Нормативные документы
    • Отдых в России
  • EN
Найти
  • Главная
  • Информационные технологии
  • Работа с компьютером
  • Классификация информационных ресурсов: какие параметры используются
23-04-2019 06:47

3190

InfoSort

Содержание статьи:
  • Понятие информационных ресурсов и их классификация (основные типы)
  • Виды информационных ресурсов и их классификация
  • Основные направления в

Классификация компьютеров

1. 2. Технические средства обработки информации

1.2.1. Классификация компьютеров

Компьютер – это устройство или средство, предназначенное для обработки информации. Компьютер может обрабатывать только информацию, представленную в числовой форме. Информацию в иной форме представления для ввода в компьютер необходимо преобразовать в числовую форму.

Современным компьютерам предшествовали ЭВМ нескольких поколений. В развитии ЭВМ выделяют пять поколений.

В основу классификации заложена элементная база, на которой строятся ЭВМ:

  1. В 1943 году была создана вычислительных машин ЭВМ первого поколения на базе электронных ламп.
  2. Второе поколение (50 – 60 г.г.) компьютеров построено на базе полупроводниковых элементов (транзисторах).
  3. Основная элементная база компьютеров третьего поколения (60 – 70 г. г.) - интегральные схемы малой и средней интеграции.
  4. В компьютерах четвертого поколения (70 – по н/в) применены больших интегральных схемах БИС (микропроцессоры). Применение микропроцессоров в ЭВМ позволило создать персональный компьютер (ПК), отличительной особенностью которого является небольшие размеры и низкая стоимость.
  5. В настоящее время ведутся работы по созданию ЭВМ пятого поколения, которые разрабатываются на сверхбольших интегральных схемах.

Существует и другие различные системы классификации ЭВМ:

  1. По производительности и быстродействию.
  2. По назначению.
  3. По уровню специализации.
  4. По типу используемого процессора.
  5. По особенностям архитектуры.
  6. По размерам.

Рассмотрим схему классификации ЭВМ (Рис. 1.), исходя из их вычислительной мощности и габаритов.


Рис. 1.

Суперкомпьютеры – это самые мощные по быстродействию и производительности вычислительные машины. К суперЭВМ относятся “Cray” и “IBM SP2” (США). Используются для  решения  крупномасштабных  вычислительных  задач и моделирования, для сложных вычислений в аэродинамике, метеорологии, физике высоких энергий, также находят применение и в финансовой сфере.

Большие машины или мейнфреймы (Mainframe). Мейнфреймы используются в финансовой сфере, оборонном комплексе, применяются для комплектования ведомственных, территориальных и региональных вычислительных центров.

Средние ЭВМ широкого назначения используются для управления сложными технологическими производственными процессами.

Мини-ЭВМ ориентированы на использование в качестве управляющих вычислительных комплексов, в качестве сетевых серверов.

Микро - ЭВМ — это компьютеры, в которых в качестве центрального процессора используется микропроцессор. К ним относятся встроенные микро – ЭВМ (встроенные в различное оборудование, аппаратуру или приборы) и персональные компьютеры PC.

Современные персональные компьютеры имеют практически те же характеристики, что и мини-ЭВМ восьмидесятых годов. На базе этого класса ЭВМ строятся автоматизированные рабочие места (АРМ) для специалистов различного уровня, используются как средство обработки информации в информационных системах.

К персональным компьютерам относятся настольные и переносные ПК. К переносным ЭВМ относятся Notebook (блокнот или записная книжка) и карманные персональные компьютеры (Personal Computers Handheld - Handheld PC, Personal Digital Assistants – PDA и Palmtop).

Далее...>>>Тема: 1.2.2. Архитектура ЭВМ

1. Информация и информатика. Информатика и вычислительная техника

1. 1. Информация в материальном мире

1.1.1. Сигналы и данные

1.1.2. Данные и методы

1.1.3. Понятие об информации

1.1.4. Диалектическое единство данных и методов в информационном процессе

1.1.5. Свойства информации

1.2. Данные

1.2.1. Носители данных

1.2.2. Операции с данными

1.2.3. Кодирование данных двоичным кодом

1.2.4. Кодирование целых и действительных чисел

1.2.5. Кодирование текстовых данных

1.2.6. Универсальная система кодирования текстовых данных

1.2.7. Кодирование графических данных

1.2.8. Кодирование звуковой информации

1.2.9. Основные структуры данных

1.2.10. Линейные структуры (списки данных, векторы данных)

1.2.11. Табличные структуры (таблицы данных, матрицы данных)

1.2.12. Иерархические структуры данных

1. 2.13. Упорядочение структур данных

1.3. Файлы и файловая структура

1.3.1. Единицы представления данных

1.3.2. Единицы измерения данных

1.3.3. Единицы хранения данных

1.3.4. Понятие о файловой структуре

1.4. Информатика

1.4.1. Предмет и задачи информатики

1.4.2. Истоки и предпосылки информатики

1.5. Итоги главы и вопросы для самоконтроля

1.1. Информация в материальном мире

1.1.1. Сигналы и данные

Мы живем в материальном мире. Все, что нас окружает и с чем мы сталкиваемся ежедневно, относится либо к физическим телам, либо к физическим полям. Из курса физики мы знаем, что состояния абсолютного покоя не существует и физические объекты находятся в состоянии непрерывного движении и изменения, которое сопровождается обменом энергией и ее переходом из одной формы в другую.

Все виды энергообмена сопровождаются появлением сигналов, то есть, все сигналы имеют в своей основе материальную энергетическую природу. При взаимодействии сигналов с физическими телами в последних возникают определенные изменения свойств — это явление называется регистрацией сигналов. Такие изменения можно наблюдать, измерять или фиксировать иными способами — при этом возникают и регистрируются новые сигналы, то есть, образуются данные.

 

Данные — это зарегистрированные сигналы.

1.1.2. Данные и методы

Обратим внимание на то, что данные несут в себе информацию о событиях, произошедших в материальном мире, поскольку они являются регистрацией сигналов, возникших в результате этих событий. Однако данные не тождественны информации. Наблюдая излучения далеких звезд, человек получает определенный поток данных, но станут ли эти данные информацией, зависит еще от очень многих обстоятельств. Рассмотрим ряд примеров.

Наблюдая за состязаниями бегунов, мы с помощью механического секундомера регистрируем начальное и конечное положение стрелки прибора. В итоге мы замеряем величину ее перемещения за время забега — это регистрация данных. Однако информацию о времени преодоления дистанции мы пока не получаем. Для того чтобы данные о перемещении стрелки дали информацию о времени забега, необходимо наличие метода пересчета одной физической величины в другую. Надо знать цену деления шкалы секундомера (или знать метод ее определения) и надо также знать, как умножается цена деления прибора на величину перемещения, то есть надо еще обладать математическим методом умножения.

Если вместо механического секундомера используется электронный, суть дела не меняется. Вместо регистрации перемещения стрелки происходит регистрация количества тактов колебаний, произошедших в электронной системе за время измерения. Даже если секундомер непосредственно отображает время в секундах и нам не нужен метод пересчета, то метод преобразования данных все равно присутствует — он реализован специальными электронными компонентами и работает автоматически, без нашего участия.

Прослушивая передачу радиостанции на незнакомом языке, мы получаем данные, но не получаем информацию в связи с тем, что не владеем методом преобразования данных в известные нам понятия. Если эти данные записать на лист бумаги или на магнитную ленту, изменится форма их представления, произойдет новая регистрация и, соответственно, образуются новые данные. Такое преобразование можно использовать, чтобы все-таки извлечь информацию из данных путем подбора метода, адекватного их новой форме. Для обработки данных, записанных на листе бумаги, адекватным может быть метод перевода со словарем, а для обработки данных, записанных на магнитной ленте, можно пригласить переводчика, обладающего своими методами перевода, основанными на знаниях, полученных в результате обучения или предшествующего опыта.

Если в нашем примере заменить радиопередачу телевизионной трансляцией, ведущейся на незнакомом языке, то мы увидим, что наряду с данными мы все-таки получаем определенную (хотя и не полную) информацию. Это связано с тем, что люди, не имеющие дефектов зрения, априорно владеют адекватным методом восприятия данных, передаваемых электромагнитным сигналом в полосе частот видимого спектра с интенсивностью, превышающей порог чувствительности глаза. В таких случаях говорят, что метод известен по контексту, то есть данные, составляющие информацию, имеют свойства, однозначно определяющие адекватный метод получения этой информации. (Для сравнения скажем, что слепому “телезрителю” контекстный метод неизвестен, и он оказывается в положении радиослушателя, пример с которым был рассмотрен выше.)

1.1.3. Понятие об информации

Несмотря на то, что с понятием информации мы сталкиваемся ежедневно, строгого и общепризнанного ее определения до сих пор не существует, поэтому вместо определения обычно используют понятие об информации. Понятия, в отличие от определений, не даются однозначно, а вводятся на примерах, причем каждая научная дисциплина делает это по-своему, выделяя в качестве основных компонентов те, которые наилучшим образом соответствуют ее предмету и задачам. При этом типична ситуация, когда понятие об информации, введенное в рамках одной научной дисциплины, может опровергаться конкретными примерами и фактами, полученными в рамках другой науки. Например, представление об информации как о совокупности данных, повышающих уровень знаний об объективной реальности окружающего мира, характерное для естественных наук, может быть опровергнуто в рамках социальных наук. Нередки также случаи, когда исходные компоненты, составляющие понятие информации, подменяют свойствами информационных объектов, например, когда понятие информации вводят как совокупность данных, которые “могут быть усвоены и преобразованы в знания”.

Для информатики как технической науки понятие информации не может основываться на таких антропоцентрических понятиях, как знание, и не может опираться только на объективность фактов и свидетельств. Средства вычислительной техники обладают способностью обрабатывать информацию автоматически, без участия человека, и ни о каком знании или незнании здесь речь идти не может. Эти средства могут работать с искусственной, абстрактной и даже с ложной информацией, не имеющей объективного отражения ни в природе, ни в обществе.

В этой работе мы даем новое определение информации, основанное на ранее продемонстрированном факте взаимодействия данных и методов в момент ее образования.

 

Информация — это продукт взаимодействия данных и адекватных им методов.

Поскольку в такой форме определение информации дается впервые, читатель приглашается для его всесторонней проверки в рамках других известных ему научных дисциплин, а мы рассмотрим пример, в свое время использованный Норбертом Винером для того, чтобы показать, как информация отдельных членов популяции становится информацией общества.

 

Допустим, я нахожусь в лесах вдвоем со смышленым дикарем, который не может говорить на моем языке и на языке которого я тоже не могу говорить. Даже без какого-либо условного языка знаков, известного нам обоим, я могу многое узнать от него. Мне нужно лишь быть особо внимательным в те моменты, когда он обнаруживает признаки волнения или интереса. Тогда я должен посмотреть вокруг, особенно в направлении его взгляда, и запомнить все, что я увижу и услышу. Не пройдет много времени, как я открою, какие предметы, представляются важными для него, — не потому, что он сообщил мне о них словами, но потому, что я сам их заметил. Иначе говоря, сигнал, лишенный внутреннего содержания, может приобрести для моего спутника смысл по тому, что наблюдает он в данный момент, и может приобрести для меня смысл по тому, что наблюдаю я в данный момент. Способность дикаря замечать моменты моего особенно активного внимания сама по себе образует язык, возможности которого столь же разнообразны, как и диапазон впечатлений, доступных нам обоим.

Н. Винер. Кибернетика

Анализируя этот пример, мы видим, что здесь речь идет о данных и методах. Прежде всего, здесь автор прямо говорит о целой группе методов, связанных с наблюдением и анализом, и даже приводит вариант конкретного алгоритма, адекватного рамкам его гипотетического эксперимента (посмотреть, запомнить, открыть...). Автор неоднократно подчеркивает требование адекватности метода (дикарь должен быть смышленым, а наблюдатель должен быть особо внимательным), без которого информация может и не образоваться.

1.1.4. Диалектическое единство данных и методов в информационном процессе

Рассмотрим данное выше определение информации и обратим внимание на следующие обстоятельства.

1. Динамический характер информации. Информация не является статичным объектом — она динамически меняется и существует только в момент взаимодействия данных и методов. Все прочее время она пребывает в состоянии данных. Таким образом, информация существует только в момент протекания информационного процесса. Все остальное время она содержится в виде данных.

2. Требование адекватности методов. Одни и те же данные могут в момент потребления поставлять разную информацию в зависимости от степени адекватности взаимодействующих с ними методов. Например, для человека, не владеющего китайским языком, письмо, полученное из Пекина, дает только ту информацию, которую можно получить методом наблюдения (количество страниц, цвет и сорт бумаги, наличие незнакомых символов и т. п.). Все это информация, но это не вся информация, заключенная в письме. Использование более адекватных методов даст иную информацию.

3. Диалектический характер взаимодействия данных и методов. Обратим внимание на то, что данные являются объективными, поскольку это результат регистрации объективно существовавших сигналов, вызванных изменениями в материальных телах или полях. В то же время, методы являются субъективными. В основе искусственных методов лежат алгоритмы (упорядоченные последовательности команд), составленные и подготовленные людьми (субъектами). В основе естественных методов лежат биологические свойства субъектов информационного процесса. Таким образом, информация возникает и существует в момент диалектического взаимоде

METU Институт информатики Min720 Классификация образцов с биомедицинскими приложениями. Часть 9: Обзор.

Презентация на тему: «Классификация паттернов Min720 Института информатики METU с биомедицинскими приложениями, часть 9: Обзор.» - Стенограмма презентации:

1 Институт информатики METU, классификация образцов Min720 с биомедицинскими приложениями, часть 9: Обзор

2 Оптимальная классификация: правило Байеса Вектор признаков Категории Дискриминантные функции по одной на категорию Распознаватель образов Оптимальные дискриминантные функции классификатора (минимальная ошибка / минимальный риск) X max g1g1 gcgc g2g2 Действие: или отклонить

3 для минимальной ошибки апостериорная вероятность. Особые случаи: Гауссовские и двоичные границы решения: разделите пространство признаков на области. Гауссовский = Границы квадратичные в целом, линейные для особых случаев.Двоичный = Границы линейны. Пример: Граница принятия решения круглая.

4 Оценка параметров Учитывая форму, мы хотим оценить ее параметры, используя образцы из данной категории. Оценка максимального правдоподобия: Максимизируйте функцию правдоподобия. Найдите, что вызовет Ex: если Тогда,

5 Классификация ближайшего соседа - Оценка плотности -1-NN, k-NN -Показано, что приближается к байесовской скорости с ошибкой, но требует больших вычислений.Уменьшите вычислительные проблемы с помощью алгоритмов редактирования. Уменьшение количества функций - для удаления избыточности и получения статистически независимых характеристик: используйте PCA (анализ основных компонентов) - для получения функций с хорошей разделяющей способностью - линейный дискриминант Фишера Линейные и обобщенные дискриминантные функции Граница принятия решения: линейная Как найти параметры гиперплоскости, которые лучше всего разделяются.

6 -Итерационные методы: использование градиентного спуска: обучение персептрона - сводит к минимуму неправильно классифицированные выборки -Неитеративные методы-минимальная квадратичная ошибка (Уидроу-Хоффа) -Поддержка векторных машин- Размерность увеличивается, так что выборки разделяютсяОбобщенные дискриминантные функции: -Функции, подобные квадратичной, могут использоваться для обобщения. -Многокатегорийные проблемы. Пример: а) Является ли задача линейно разделимой? б) Получите 3 весовых вектора с помощью алгоритма персептрона


7 Нам нужно W 10, W 20, W 30 W2W2 W1W1 W3W3 Для решения применим алгоритм с расширением мультикатегории. дополненный

8 Дополните выборки: повторите алгоритм, начиная со случайно выбранной выборки.если так

Институт информатики METU Классификация образцов Min720 с биомедицинскими приложениями. Часть 6: Классификация ближайшего и k-ближайшего соседа.

Презентация на тему: «Классификация образов Min720 Института информатики METU с биомедицинскими приложениями, часть 6: Классификация ближайшего и k-ближайшего соседа». - Стенограмма презентации:

1 Институт информатики METU Классификация образцов Min720 с биомедицинскими приложениями, часть 6: Классификация ближайшего и k-ближайшего соседа

2 Правило ближайшего соседа (NN) и правило k-ближайшего соседа (k-NN) Правила непараметрической классификации: Линейные и обобщенные дискриминантные функции Правила ближайшего соседа и правила k-NN NN Правило 1-NN: Прямая классификация с использованием обучающих выборок Предположим, что у нас есть M обучающие выборки из всех категорий Xjk: k-й образец из i-й категории Предположим расстояние между выборками

3 Общая метрика расстояния должна подчиняться следующим правилам: Самый стандартный: Евклидово расстояние.

4 if For То есть присвоить X категории, если ближайший сосед X из категории i.Правило 1-NN: дан неизвестный образец X

5 Пример: Найдите границу решения для задачи ниже. Граница принятия решения: Кусочно-линейное правило k-NN: вместо того, чтобы смотреть на ближайшую выборку, мы смотрим на k ближайших соседей к X и проводим голосование. Побеждает самый большой голос. k обычно берется как нечетное число, чтобы не возникало ничьей.

6 Показано, что правило k-NN приближается к оптимальной классификации, когда k становится очень большим, но k-I NN (NN с опцией отклонения) Решает, превышает ли большинство заданный порог I.В противном случае откажитесь. k = 5 Если мы установим порог I = 4, то, приведенный выше пример отклоняется для классификации.


7 Анализ правила NN возможен, когда и было показано, что оно не хуже, чем в два раза выше классификации с минимальной ошибкой (по частоте ошибок). РЕДАКТИРОВАНИЕ И КОНДЕНСИРОВАНИЕ Правило NN становится очень привлекательным из-за своей простоты и в то же время хорошей производительности. Таким образом, становится важным снизить связанные с этим вычислительные затраты.Сделайте интеллектуальное удаление образцов. Удалите образцы, которые не влияют на границу решения.

8 Диаграммы Вороного Граница решения - это многоугольник, в котором любая точка, попадающая в него, находится ближе к любому другому образцу.

9 Таким образом, правило редактирования состоит в отбрасывании всех образцов, не имеющих многоугольника Вороного, имеющего общую границу, принадлежащую образцу из другой категории.Алгоритм редактирования NN  Рассмотрите диаграммы Вороного для всех выборок  Найдите соседей Вороного для выборки X ’ Если какой-либо сосед из другой категории, оставьте X’. Остальное снимаем с набора.  Постройте диаграмму Вороного с оставшимися образцами и используйте ее для классификации.

10 Преимущество NNR: нет обучения - нет оценки, которую так легко реализовать. Недостаток: классификация дороже. Итак, люди нашли способы снизить стоимость NNR.Анализ правил NN и k-NN: возможно, когда X (неизвестный образец) и X ’(ближайший сосед) подойдут очень близко. То есть мы выбираем категорию с вероятностью (апостериорной вероятностью).

11 Границы ошибок и связь с правилом Байеса: Предположить - Граница ошибки для правила Байеса (число от 0 до 1) - Граница ошибки для 1-NN - Граница ошибки для k-NN Можно показать, что для 2 категорий и для категорий c Всегда лучше, чем вдвое больше байесовских ошибок!

12 E = Граница для k = 1 Наибольшая ошибка возникает, когда (все плотности одинаковы), тогда E

Системы рекомендаций и классификации: систематическое сопоставление

Сегодня алгоритмы рекомендаций широко используются компаниями во многих секторах с целью увеличения их прибыли или предложения более специализированных услуг своим клиентам.Более того, существует бесчисленное множество приложений, в которых используются алгоритмы классификации, стремящиеся найти закономерности, которые трудно обнаружить людям или стоимость обнаружения которых очень высока. Иногда необходимо использовать комбинацию обоих алгоритмов, чтобы дать оптимальное решение проблемы. Это случай ADAGIO, научно-исследовательского проекта, который объединяет стратегии машинного обучения (ML) из разнородных источников данных для получения ценных знаний на основе доступных открытых данных. В целях поддержки требований проекта ADAGIO основная цель этого документа - дать четкое представление о существующих классификационных и рекомендательных системах машинного обучения, чтобы помочь исследователям и практикам выбрать лучший вариант.Для достижения этой цели в данной работе представлен систематический обзор, применяемый в двух контекстах: научном и промышленном. Было проанализировано более тысячи статей, в результате чего было проведено 80 первичных исследований. Выводы показывают, что сочетание этих двух алгоритмов (классификации и рекомендации) на практике мало используется. Фактически, подтверждения, представленные для обоих случаев, очень скудны в промышленной среде. С точки зрения жизненного цикла разработки программного обеспечения, этот обзор также показывает, что работа, выполняемая в исследовательской и промышленной среде ML (для классификации и рекомендаций), далека от более ранних стадий, таких как бизнес-требования и анализ.Это очень затрудняет поиск эффективных и действенных решений, которые удовлетворяют реальные потребности бизнеса с самого начала. Поэтому в статье предлагается разработать новые направления исследований машинного обучения, чтобы облегчить его применение в различных областях.

1. Введение

Значительный рост объема данных и информации, к которым можно получить доступ (известные «большие данные»), в сочетании с сотрудничеством с правительством по предоставлению открытой информации (открытые данные), заставляет компании очень интересоваться этой проблемой.Одна из самых больших проблем в этой области заключается в том, что эта информация не находится в одном месте, даже в общем формате интерпретации. Следовательно, необходимо создавать решения, которые собирают эти разрозненные данные и применяют определенную обработку, чтобы их можно было предложить своим клиентам.

Сбор разрозненной информации и ее объединение, чтобы иметь возможность работать с ней, открыли бы новую рыночную нишу, новую бизнес-единицу, учитывая возможность автоматического генерирования ценных данных.Кроме того, это повысит независимость при принятии решений или решении проблем, не прибегая к услугам эксперта по управлению бизнесом.

В этом контексте родился проект ADAGIO. Это научно-исследовательский проект, сочетающий в себе стратегии больших данных и машинного обучения (ML) для обработки геолокационных данных, извлеченных из разнородных источников данных. Он позволяет агрегировать, консолидировать и нормализовать данные из различных семантических полей, полученных из источников, упомянутых ранее.Его цель - дать возможность консультироваться с согласованной информацией с использованием конкретных переменных, что облегчает получение знаний.

Применение систем классификации и рекомендаций в этом проекте представляет большой интерес для взаимосвязи и периодической консолидации процесса обработки данных, так что система развивает возможности для преобразования, взаимосвязи и интеграции данных посредством контролируемого обучения. Кроме того, эти системы имеют большое значение для управления запросами, повышая производительность запросов пользователей на максимально естественном и высоком уровне языка.Тот факт, что пользователь получает хорошие результаты при поиске на платформе ADAGIO, является одной из основных целей проекта. Для удобства пользователей предложения предлагаются на этапе заполнения параметров поиска. На этом этапе также потребуется сотрудничество пользователей системы, оценивающих результаты поиска в соответствии с их качеством и точностью.

Это исследование было выполнено, чтобы облегчить исследователям и практикам задачу выбора наиболее подходящей системы, технологии или алгоритма для включения в проект ADAGIO для удовлетворения их требований.В этом смысле данная статья представляет собой систематическое картографическое исследование (SMS), в котором анализируется текущее состояние систем рекомендаций и классификации и их совместная работа. Затем, с точки зрения жизненного цикла разработки программного обеспечения, этот обзор также показывает, что работа, выполняемая в исследовательской и промышленной среде машинного обучения (для классификации и рекомендаций), далека от более ранних стадий, таких как бизнес-требования и анализ. Это очень затрудняет поиск эффективных и действенных решений, которые удовлетворяют реальные потребности бизнеса с самого начала.Затем в этой статье предлагается разработать новые направления исследований машинного обучения, чтобы облегчить его применение в различных областях.

Этот документ организован следующим образом. Раздел 2 описывает работы, наиболее близкие к нашему предложению; В Разделе 3 подробно описан выбранный метод отправки SMS; В разделах с 4 по 8 показано выполнение различных этапов SMS; и, наконец, в Разделе 9 резюмируются выводы, полученные в результате исследования, и представлен набор будущих работ.

2. Связанные работы

Системы рекомендаций и классификации вызывают большой интерес в научном сообществе.В этом разделе представлены работы, наиболее близкие к исследованиям, предлагаемым в данной статье.

Jaysri et al. [1] представили полный обзор рекомендательных систем с упором на совместную фильтрацию. Он показывает различные алгоритмы, основанные на этой фильтрации, как для профиля пользователя, так и для характеристик продукта. Кроме того, он демонстрирует несколько методов классификации, которые могут быть частью исходных данных для рекомендательных систем. Экстранд и др. [2] представили общий обзор и сосредоточились на области рекомендательных систем.Их цель состояла в том, чтобы узнать больше о текущих разработках методов рекомендаций, особенно систем, использующих совместную фильтрацию.

Получение исследовательской точки зрения о том, как принимать решения при выборе алгоритмов для предложения рекомендаций, можно найти в статье, представленной Гунавардана и Шани [3]. Он критикует использование онлайн-методов, которые могут предлагать меры для выбора алгоритмов рекомендаций, и определяет в качестве важнейшего элемента использование автономных инструментов для получения этих показателей.Кроме того, он отказывается от использования традиционных показателей для выбора алгоритма и проверяет надлежащую разработку экспериментов для его проведения. Для этого авторы проводят анализ важных задач рекомендательных систем и классифицируют набор подходящих и известных мер оценки для каждой задачи.

Poussevin et al. [4] выявили проблему учета предпочтений пользователей при вынесении рекомендаций. Авторы проанализировали комбинацию систем рекомендаций и классификаторов, которые выделяют слова, указывающие на разрыв между ожиданиями пользователей и их реальным опытом.Они приходят к выводу, что традиционные рекомендательные системы анализируют прошлые классификации; то есть они рассматривают историю предпочтений пользователей, в то время как системы рекомендаций, которые анализируют классификации мнений, рассматривают существующие оценки на данный момент.

В рамках ML наблюдается рост интереса исследовательского сообщества, чему посвящено множество статей. В некоторых предложениях используются лексические классификаторы для выявления возможных ощущений с помощью содержательных рекомендаций [5].Другие авторы сосредоточились на более традиционных ответвлениях машинного обучения, используя, среди прочего, хорошо известные и проверенные статистические методы, такие как логистическая регрессия, коэффициент корреляции Пирсона или применение наивной теоремы Байеса, основанной на вероятности [6]. Авторы этой статьи сосредоточились на расширении этих методов для решения проблем, присущих системам рекомендаций, таких как холодный старт или масштабируемость. Холодный старт [7] является типичной проблемой с самого начала систем рекомендаций, потому что, когда в системе недостаточно данных, точность рекомендаций не может быть гарантирована.Это проблема, которая усугубляется в начале внедрения системы, когда данные недоступны. Масштабируемость становится довольно сложной задачей из-за увеличения объема информации в последние годы и объема данных, которыми системы должны управлять. Системы рекомендаций, основанные как на продуктах, так и на пользователях, влияют на производительность и точность, когда эти объемы данных очень большие. Работа, представленная Ghazanfar и Prügel-Bennett [8], также была сосредоточена на этой проблеме, как правило, для пользовательских рекомендаций, которые наиболее часто используются.

Альтернативная интересная связанная работа, посвященная использованию ML, - это обзор классификации настроений, представленный Hailong et al. [9]. В этой работе авторы также проводят сравнительное исследование найденных методов, делая вывод, что контролируемое машинное обучение обеспечивает более высокую точность, в то время как методы, основанные на лексике, также являются конкурентоспособными, поскольку они требуют меньше усилий и не чувствительны к количеству и качеству набор обучающих данных. Обзор, представленный Му [10], представляет собой обзор рекомендательных систем, основанных на глубоком обучении.Авторы завершают эту работу, суммируя ряд направлений будущих исследований, таких как кросс-домен, масштабируемость, объяснимость или рекомендательные системы на основе глубокой составной модели, среди прочего.

В документе, представленном Portugal et al. [11] представляет систематический обзор использования ML в рекомендательных системах. Авторы проанализировали 121 первичное исследование, классифицированное по разным категориям: контентная фильтрация и фильтрация по соседству, совместная фильтрация по соседству и модель, а также гибридная фильтрация.Эта работа помогает разработчикам распознавать алгоритмы, их типы и тенденции использования конкретных алгоритмов. Он также предлагает метрики оценки текущего типа и классифицирует алгоритмы на основе этих метрик. Ouhbi et al. [12] предложили систему рекомендаций, основанную на глубоком обучении, чтобы преодолеть некоторые ограничения существующих подходов. В соответствующем разделе этой статьи авторы описывают небольшое современное состояние рекомендательных систем на основе глубокого обучения, подробно описывая метод, подход, метрику, набор данных, преимущества и недостатки семи предложений.

Zhang et al. [13] представили широкий обзор рекомендательных систем на основе глубокого обучения, предложив классификацию и выделив группу наиболее влиятельных. Авторы обсуждают плюсы и минусы использования методов глубокого обучения для рекомендательных задач. Кроме того, подробно описаны некоторые из наиболее актуальных открытых проблем и перспективных будущих расширений.

Таким образом, в обзоре литературы были представлены различные темы, которые могут приблизиться к преследуемой цели. Но есть несколько отличий между этими статьями и тем, что представлено в этой работе: (i) процесс обзора: в отличие от остальных статей, это исследование представляет собой систематический и строгий процесс, обеспечивающий качество полученных результатов; (ii) контекст применения: обычно обзоры проводятся на научной литературе; в этом случае данное исследование также представляет собой обзор промышленного масштаба с анализом основных существующих решений проблемы; и (iii) сфера применения: в этом систематическом обзоре современное состояние систем классификации и рекомендаций представлено в совместной работе, то, что в уже упомянутых родственных работах не выполняется или выполняется независимо для классификации или рекомендация.

3. Методология

Систематический обзор литературы - эффективный способ узнать современное состояние предмета. Эта процедура обеспечивает определенный уровень качества информации и пользуется поддержкой исследовательского сообщества. Мониторинг систематического и управляемого процесса гарантирует надежные и интересные результаты и облегчает работу по сбору информации.

Обзор, представленный в этой статье, помещен в контекст систем рекомендаций и классификации с двух точек зрения: научной и промышленной.

При проведении систематического обзора литературы (SLR) основной методологией, которую следует учитывать, является метод, представленный Kitchenham and Charters [14]. Это один из наиболее широко используемых методов в области разработки программного обеспечения. Он предлагает способ выполнения SLR, состоящий из трех этапов: планирование, проведение обзора и отчет о результатах. Однако вместо того, чтобы выполнять глубокий обзор статей, сравнивающих их, что является основной целью SLR, это исследование стремится предоставить обзор интересной темы и определить количество и тип опубликованных исследований, связанных с ними, а также соответствующие результаты доступны.Таким образом, наилучшей методологией для применения является систематическое картографическое исследование (SMS), представленное Petersen et al. [15], вид систематического обзора, но с более широкой целью. Этот метод позволит идентифицировать субъектов, которым не хватает эмпирических данных и которые необходимы для проведения дополнительных эмпирических исследований. SMS-сообщения демонстрируют много общего с SLR. Как можно видеть на диаграмме действий на Рисунке 1, этот метод устанавливает набор из пяти шагов, каждый из которых дает результат.Эти шаги заключаются в следующем: (i) Определение вопросов исследования. Формулировка исследовательских вопросов (RQ), которые будут направлять работу (ii) Провести поиск. Поиск обычно выполняется в различных электронных библиотеках и основан на некоторых ключевых словах, извлеченных из запросов на получение ответов. (Iii) Просмотр статей. Применение критериев включения и исключения с целью выбора наиболее релевантных и близких к теме исследования статей. (Iv) Ключевые слова с использованием аннотации .Построение схемы классификации, в которой все первичные статьи, выбранные на предыдущем этапе, будут классифицированы. (V) Процесс извлечения и отображения данных . Процесс извлечения и отображения данных на основе результатов, полученных в процессе ввода ключевых слов. Эта деятельность позволит исследователям классифицировать текущее состояние темы и выявить пробелы и возможности для будущих исследований.


4. Определение вопросов исследования

Вопрос исследования (RQ) - это фундаментальное ядро ​​исследовательского проекта, исследования или обзора литературы.Следовательно, чтобы знать и лучше понимать существующую литературу, относящуюся к системам рекомендаций и классификаций, необходимо сформулировать ряд исследовательских вопросов. Эти вопросы будут фокусировать исследование, определят методологию, которая будет установлена, и будут направлять все этапы этого исследования. В этом смысле для данного SMS были предложены следующие RQ: (i) RQ1 . Какие системы рекомендаций и классификации были исследованы? (Ii) RQ2 .Какие системы рекомендаций и классификации использовались? (Iii) RQ3 . Какова природа обнаруженных систем? (Iv) RQ4 ​​. Какие цели преследуются в найденных предложениях?

5. Провести поиск

Перед выполнением поиска в различных электронных библиотеках необходимо выполнить две операции: определить электронные библиотеки, в которых будет выполняться поиск, и установить ключевые слова, которые будут составлять поисковые строки. Для проведения поиска были выбраны следующие цифровые библиотеки: SCOPUS, IEEE Xplore, ACM и ScienceDirect.Кроме того, для промышленного применения были выбраны поисковые системы Google, Yahoo и Bing.

Для определения поиска были определены ключевые слова, и это фундаментальная часть при создании запросов для каждой электронной библиотеки. Эти ключевые слова были получены после проведения анализа области исследования, к которой относится данное исследование, рекомендаций и систем классификации. В таблице 1 показан полный набор используемых ключевых слов, а уравнение (1) показывает формулу, применяемую к этим ключевым словам для создания окончательных запросов.


A B C

A1395 система обучения 1.96 1.96 Система машинного обучения C 1. Классификатор
A 2. Глубокое обучение B 3. Рекомендуемый C 2. Классификация
A 3.Нейронные сети B 4. Контентная фильтрация C 3. Классифицированный
B 5. Совместная фильтрация C 4. Система классификации

Логическое выражение ключевых слов выглядит следующим образом:

После того, как все ключевые слова были определены, были созданы запросы. Эти запросы были разными для каждой цифровой библиотеки, и у них были разные граничные характеристики, в зависимости от возможностей электронной библиотеки.Электронные библиотеки имеют определенные ограничения при поиске. Например, некоторые из них не позволяют использовать полные строки поиска; в других случаях необходимо дополнять эти строки простым текстовым поиском. По этой причине необходимо создавать индивидуальные запросы для каждой библиотеки и впоследствии обрабатывать результаты поиска, чтобы получить те же результаты, которые можно было бы получить с помощью первоначально предложенного запроса. Таблица 2 показывает набор примеров для каждой электронной библиотеки.


Цифровая библиотека Запрос

Scopus TITLE-ABS-OR KEY «нейронное обучение» («машинное» обучение) И TITLE-ABS-KEY («классификатор» ИЛИ «классификация» ИЛИ «классифицированный» ИЛИ «система классификации») И TITLE-ABS-KEY («рекомендуемый» ИЛИ «рекомендательная система» ИЛИ «совместная фильтрация» ИЛИ «фильтрация на основе содержимого» »)

IEEE Xplore (« Машинное обучение »ИЛИ« глубокое обучение »ИЛИ« нейронные сети ») И (« классификатор »ИЛИ« классификация »ИЛИ« классифицированная »ИЛИ« система классификации ») И («рекомендованный» ИЛИ «рекомендательная система» ИЛИ «совместная фильтрация» ИЛИ «фильтрация на основе содержимого»)

ACM acmdlTitle: («машинное обучение» «глубокое обучение» «нейронные сети» ) ИЛИ recordAbstract: («машина обучение »« глубокое обучение »« нейронные сети ») И (acmdlTitle: (« классификатор »« классификация »« классифицированная »« система классификации ») ИЛИ recordAbstract: (« классификатор »« классификация »« классифицированный »« система классификации »)) И (acmdlTitle: («рекомендованный» «рекомендательная система» «совместная фильтрация» «фильтрация на основе содержимого») ИЛИ recordAbstract: («рекомендованный» «рекомендательная система» «совместная фильтрация» «фильтрация на основе содержимого»))

Science direct («Машинное обучение» ИЛИ «глубокое обучение» ИЛИ «нейронные сети») И («классификатор» ИЛИ «классификация» ИЛИ «классифицированная» ИЛИ «система классификации») И («рекомендуется» ИЛИ « система рекомендаций »ИЛИ« совместная фильтрация »ИЛИ« фильтрация на основе содержимого »)

Поиск проводился по названию, аннотации и ключевым словам статей, за исключением тех электронных библиотек, которые не позволил.В таких случаях поиск производился по всему тексту. Строки поиска, метаданные найденных элементов (название, автор и год публикации) и резюме документов хранились для каждого источника поиска. После выполнения первого поиска был получен начальный набор из 1195 потенциальных первичных исследований.

6. Проверка документов

Существуют различные метрики для определения критериев качества, которые делают статью актуальной. В этой работе, помимо тех, которые связаны со структурой статей, критерии обеспечения качества, определенные в тех научных статьях, которые были классифицированы в следующих принятых индексах: (i) «Отчет о цитировании журнала (JCR)» [16], часть компании Thomson Scientific (ii) Австралийская классификация, созданная «Ассоциацией компьютерных исследований и образования Австралии (CORE)» [17] (iii) Рейтинг соответствующих конгрессов Научно-информационного общества Испании (SCIE) [18] , рекомендуя использовать рейтинг, разработанный итальянскими ассоциациями GII и GRIN [19]

Кроме того, были определены следующие критерии включения и исключения для включения или исключения публикации в выбранные первичные исследования: (i) C1, Критерий 1. Классификация рассматриваемой публикации должна быть «Компьютерные науки» (ii) C2, Criterion 2 . Написано на английском языке (iii) C3, Criterion 3 . Исследование должно быть связано с классификацией и рекомендациями данных с использованием систем машинного обучения (iv) C4, Criterion 4 . Поиски не могут быть повторены. Множественные появления должны быть исключены (v) C5, Критерий 5 . Как упоминалось выше, документы должны быть отнесены к рейтингам JCR или SCIE (vi) C6, критерий 6. Чтение реферата должно соответствовать рассматриваемой теме.

Наконец, были учтены некоторые рекомендации экспертов по предмету, рассматриваемому в данном SMS. Если эти исследования не были обнаружены после выполнения различных поисков, они включались в окончательный отбор первичных исследований.

После определения критериев качества, включения и исключения статей был проведен отбор статей. Согласно С1 включения / исключения статей, сфера деятельности которых связана с «Информатикой», всего было получено 923 результата, при этом 272 статьи не соответствовали этому критерию.C2 был применен к 923 статьям, полученным из C1, в результате чего получилось 909 статей. К результатам, полученным с помощью C2, был применен критерий C3, в результате чего было получено 432 результата. После применения C4 в общей сложности 96 документов были удалены, оставшиеся 336. Всего 259 документов были результатом применения C5. Последний фильтр, C6, был применен к 99 статьям, считая, что 160 из удаленных не соответствуют теме данного исследования. Наконец, повторяющиеся документы были удалены. В результате этого процесса были удалены повторяющиеся записи между различными электронными библиотеками.

Результатом применения всех критериев качества и включения и исключения стало 80 первичных исследований, которые будут отнесены к классификационной схеме. Количество найденных статей соответствует (примерно) 6% результатов, найденных при первом поиске. В таблице 3 показаны выбранные первичные исследования.

901 34

Название Ссылка

Создание точных и практичных алгоритмов системы рекомендаций с использованием классификатора машинного обучения и совместной фильтрации

обнаружение с использованием совместной фильтрации и кластеризации на основе плотности
[21]
Многоступенчатый метод совместной фильтрации для обнаружения падения [22]
Анализ и производительность алгоритмов совместной фильтрации и классификации [1]
Извлечение словаря удивления путем совместной фильтрации смеси и анализа чувств [4]
Фильтрация на основе контента в онлайн-социальной сети с использованием алгоритма логического вывода [23]
Создание рекомендаций по гибридному переключению система, использующая классификаторы машинного обучения и совместную фильтрацию [8]
Совместная фильтрация с усилением иммутации с использованием классификаторов машинного обучения [24]
CRISP-алгоритм управления прерываниями на основе совместной фильтрации [25]
Модель кредитного скоринга, основанная на совместной фильтрации [26]
Рекомендательные системы совместной фильтрации [2]
Улучшенная переключаемая гибридная рекомендательная система с использованием наивного байесовского классификатора и совместной фильтрации [] 6]
Моделирование твитов с рекуррентными нейронными сетями LSTM для рекомендаций по хэштегам [27]
Двухэтапная междоменная рекомендация для проблемы холодного запуска в киберфизических системах [28]
Упреждающая рекомендация на основе вменения на основе ELM der systems [29]
Система рекомендаций для пользователей Twitter с использованием твитов: подход, основанный на содержании [30]
Персонализированная система рекомендаций по действиям с указанием времени [31]
Автоматическая классификация коротких текстов на основе контента для фильтрации нежелательных сообщений в Facebook [32]
Обнаружение атаки по шиллингу в совместных рекомендательных системах с использованием стратегии метаобучения [33]
Создание распределенного универсального рекомендателя с использованием масштабируемых данных библиотека для майнинга [34]
Контекстно-зависимые рекомендации фильмов на основе обработки сигналов и машинного обучения [35]
Рекомендательные системы с использованием линейных классификаторов [36]
Исследование точности показатели оценки рекомендательных задач [3]
Включение пользовательского контроля в рекомендательные системы на основе наивной байесовской классификации [37]
Классификационные особенности для обнаружения атак в совместных рекомендательных системах [38]
Алгоритмы автоматической рекомендации тегов для социальных рекомендательных систем [39 ]
Оптимизация рекомендаций по похожим товарам на полуструктурированном рынке для максимальной конверсии [40]
Сбор информации о предпочтениях пользователей: онтологии в рекомендательных системах [41]
Музыка на основе эмоций рекомендация с использованием контролируемого обучения [42]
УДИВИТЕЛЬНАЯ - система на основе хранилища данных для адаптивных рекомендаций веб-сайтов [43]
Выбор лексических и синтаксических функций для системы рекомендаций адаптивного чтения на основе сложности текста [5]
Технология рекомендации новостей для смарт-устройств, основанная на поведении пользователя при нажатии [44]
Рекомендация как прогнозирование ссылок в двудольных графах: подход машинного обучения на основе ядра графа [45]
Новый подход к рекомендациям на основе контекста с использованием методологии опорных векторов [46]
Смартфонная система с учетом активности для потоковой передачи музыки. Рекомендация [47]
Система рекомендаций по использованию приложений: улучшение прогнозирования точность для пользователей как теплого, так и холодного старта [48]
Предложение рекомендаций по проектированию интеллектуальной системы рекомендаций, регистрирующих напряжение [49]
Рекомендательная система, основанная на неявной обратной связи для выборочного распространения электронных книг [50]
Новая рекомендательная система, основанная на БПФ. с машинным обучением для прогнозирования и выявления сердечных заболеваний [51]
Подход к системам рекомендаций на основе контента с использованием классификации на основе списка решений с набором правил k-DNF [52]
Вероятностный подход для QoS- осведомленная система рекомендаций для выбора надежных веб-сервисов [53]
Подход к проблеме холодного старта в рекомендательных системах в контексте веб-обучения [54]
Контекст и осведомленность о намерениях в POI рекомендательные системы [55]
Стратегия повторного ранжирования на основе совместной фильтрации для поиска в электронных библиотеках [56]
Изучение интересов пользователей по классификации качества в рыночных рекомендательных системах [ 57]
Система рекомендаций мобильного контента для повторного посещения пользователя с использованием фильтрации на основе контента nd профиль пользователя на стороне клиента [58]
Гибридный алгоритм совместной фильтрации на основе KNN и повышения градиента [59]
Масштабируемый алгоритм совместной фильтрации, основанный на локализованных предпочтениях [60]
Рекомендуется или не рекомендуется? Проверить классификацию путем извлечения мнений [61]
Выбор и рекомендации службы интеллектуального анализа данных на основе мета-характеристик с использованием моделей машинного обучения [62]
Персонализированные рекомендации канала глубокое обучение на основе последовательности переключения [63 ]
Эффективная маркировка в системе рекомендаций на основе содержимого для изображений [64]
Новый подход к контекстно-зависимым рекомендациям на основе методологии машинного обучения [65]
На основе расстояния подход к действию рекомендация [66]
Ранжирование и классификация привлекательности фотографий в фольксономиях [67]
Последствия изменчивости оценок эффективности классификатора [68]
Машинное обучение и лексика основанные на методах классификации настроений: опрос [9]
Выбор алгоритма машинного обучения для прогнозирования поведения глобальных институциональных инвесторов [69]
На пути к быстрому интерактивному машинному обучению: оценка компромиссов при классификации без представления [70]
На пути к методу автоматической эволюции классификаторов байесовских сетей [71]
Основанная на машинном обучении структура оценки доверия для социальных сетей в Интернете [72]
Автоматическая идентификация проблем: регрессия противклассификация через эволюционные глубокие сети [73]
Эмпирическая оценка методов прогнозирования ранжирования для классификации данных экспрессии генов [74]
Выведение контекстных предпочтений с использованием глубокого автокодирования [75]
Автоматическое распознавание затруднений с текстом в информации о здоровье потребителей [76]
Гибридный подход для автоматической рекомендации модели [77]
Обучающий экземпляр жадно клонирует наивный байесовский метод для ранжирования [78]
Совместные рекуррентные нейронные сети на основе парного ранжирования для прогнозирования клинических событий [79]
Методология точного многокритериального принятия решений для рекомендации алгоритма машинного обучения [80]
Общий расширяемый подход к обучению для рекомендации по нескольким заболеваниям Рекомендации в среде телездравоохранения [81]
Эффективное создание рекомендаций с использованием релевантного подобия jaccard [82]
Рекомендация по сегментации на основе изображений с использованием краудсорсинга и обучения передачи для удаления кожных повреждений [83 ]
Автоматическая классификация земного покрова с высоким разрешением с использованием новой процедуры взвешивания данных: комбинация алгоритма кластеризации k и показателей центральной тенденции (KMC – CTM) [84]
Строительство больницы справочная экспертная система с алгоритмом поддержки принятия решений на основе прогнозирования и оптимизации [85]
Методы классификации компьютеризированных систем для прогнозирования и / или обнаружения апноэ: систематический обзор [86]
Идентификация ассоциаций категорий с использованием классификатора с несколькими ярлыками [87]
Использование ассоциативных классификаторов для устранения типичных недостатков рекомендательных систем [88]
S3Mining: инженерный подход на основе модели для поддержки начинающих майнеров данных при выборе подходящих классификаторов [89]
Использование алгоритмов машинного обучения в рекомендательных системах: систематический обзор [11]

На рисунке 2 показан список ключевых слов, обнаруженных в различных первичных исследованиях.На этом рисунке ключевые слова классифицируются на основе общего количества совпадений, найденных между всеми этими первичными исследованиями.


На рисунке 3 показан полный процесс выбора первичных исследований. Он показывает процедуру поиска для каждой цифровой библиотеки и результаты после применения каждого критерия качества, а также критериев включения и исключения.


Точно так же, ранее выполнявшийся процесс выполнялся для промышленных масштабов для обнаружения и выбора основных технологий или инструментов, которые предлагают компании.Поисковые системы выдали несколько результатов (таблица 4), всего 21 предложение оставалось потенциальными кандидатами.

9013 9013 [92] 96128 [97]

Технологии Ссылка

Scikit-learn [90]

[90]
Rexy [93]
PredictionIO [94]
HapiGER [95]

9013 9013
SLI Systems Recommender [98]
Машинное обучение AmazonWebService [99]
Azure ML Studio [100]
IBM Watson [102]
Recombee [103]
Mr.DLib [104]
Caret [105]
Блестящий [106]
RandomForest [107]
Kla CORElearn [109]
RecommenderLab [110]

7. Ключевые слова с использованием рефератов

Для создания схемы классификации была выбрана первичная попытка классификации исследований. сделано, чтобы ответить на каждый из вопросов исследования, сформулированных на этапе планирования, и, кроме того, идентифицировать каждый из них с набором функций.

Кроме того, были проведены две полные итерации для классификации всех исследований и проверки того, что все обнаруженные особенности включали содержание каждого исследования. Таблица 5 показывает и описывает определенную схему классификации.

алгоритма или алгоритм , если алгоритм предложит алгоритм 9012 8 Эта функция определяет, основано ли первичное исследование на ансамблевом классификаторе со схемой повышения

Исследовательский вопрос Характеристика Описание

RQ1 Алгоритм исследования3 предлагает первичный алгоритм
Система Эта функция определяет, является ли первичное исследование программной системой, основанной на различных компонентах.
Структура Эта функция определяет, основано ли первичное исследование на структуре
Метод Эта функция определяет если первичное исследование представляет собой набор процедур для получения результата
Анализ Эта функция определяет, является ли первичное исследование теоретическим исследованием, основанным на опросах или систематических обзорах среди прочего

RQ2 Подтверждено Thi Функция определяет, подтверждено ли первичное исследование с помощью экспериментов, вариантов использования или опросов
Не подтверждено Эта функция определяет, было ли первичное исследование подтверждено с помощью экспериментов, сценариев использования или опросов
Академический Эта функция определяет, было ли первичное исследование подтверждено с помощью некоторого академического тематического исследования
Промышленное Эта функция определяет, было ли первичное исследование подтверждено с помощью некоторого тематического исследования в отрасли
Эксперимент Эта функция определяет, было ли первичное исследование подтверждено с помощью разработки различных экспериментов.
Пример использования Эта функция определяет, было ли подтверждено первичное исследование изучением варианта использования.
Обзор Эта функция определяет, первичное исследование было подтверждено разработкой некоторого типа су rvey

RQ3 На основе содержимого Эта функция определяет, основано ли решение, предложенное в первичном исследовании, или состоит из системы рекомендаций с фильтром на основе содержимого
Collaborative This Эта функция определяет, основано ли решение, предложенное первичным исследованием, или состоит из системы рекомендаций с коллаборативным фильтром
Гибрид Эта функция определяет, основано ли решение, предложенное первичным исследованием, на основе совместной работы и содержания объединение фильтров на основе
Ядро графика Эта функция определяет, основано ли первичное исследование на графическом классификаторе или состоит из него.
Наивный байесовский Эта функция определяет, основано ли первичное исследование на наивном вероятностном классификаторе или состоит из него наивный байесовский
Лог istic regression Эта функция определяет, основано ли первичное исследование на классификаторе логистической регрессии или состоит из него.
Дерево решений Эта функция определяет, основано ли первичное исследование на классификаторе или состоит из него. деревья решений
Лексический Эта функция определяет, основано ли первичное исследование на классификаторе на основе текстовых признаков или состоит из него.
На основе правил Эта функция определяет, основано ли первичное исследование на правиле или состоит из правила. на основе классификатора
Нейронные сети Эта функция определяет, основано ли первичное исследование на классификаторе на основе нейронных сетей или состоит из него.
Кластеризация Эта функция определяет, основано ли первичное исследование на не -управляемый кластерный классификатор
Повышение
Линейный алгоритм или состоит из него.
На основе атрибутов Эта функция определяет, основано ли первичное исследование на классификаторе на основе атрибутов или состоит из него.
Мультикласс Эта функция определяет, основано ли первичное исследование на многоклассовом классификаторе или состоит из него
Warehouse Эта функция определяет, состоит ли первичное исследование из классификатора на основе хранилища данных
SVM-векторы Эта функция определяет, состоит ли первичное исследование из классификатора, который использует машины векторов поддержки
Метод соседства Эта функция определяет, является ли первичное исследование составным. sed классификатора на основе метода соседей
На основе мнений Эта функция определяет, состоит ли первичное исследование из классификатора на основе мнений
На основе целевого Эта функция определяет, является ли первичное исследование состоит из целевого классификатора
Случайный лес Эта функция определяет, состоит ли первичное исследование из классификатора случайного леса

RQ4 Новизна Эта функция определяет, исследование - это новое предложение, которого нет в литературе.
Анализ Эта функция определяет, является ли первичное исследование анализом нескольких существующих предложений в литературе
Исследование Эта функция определяет, является ли первичное исследование это исследование существующих или новых предложений
Улучшение Эта особенность определяет, является ли первичное исследование улучшением существующего предложения в литературе

После этого процесс определения схемы классификации повторяется для промышленной зоны.Путем ответа на вопросы исследования и извлечения характеристик технологий была определена схема классификации (Таблица 6).

, если найдена вспомогательная технология , если эта функция определяет, основана ли найденная технология на Apache Spark

Исследовательский вопрос Характеристика Описание

RQ1 Инструмент найдена Библиотека Эта функция определяет, является ли найденная технология библиотекой методов или структурой
Система Эта функция определяет, является ли найденная технология полной системой
Платформа Эта функция определяет, является ли найденная технология представляет собой платформу
API Эта функция определяет, является ли найденная технология API, который предлагает свои функции

RQ2 Бесплатно Эта функция определяет, является ли найденная технология бесплатным программным обеспечением
Коммерческий 90 133 Эта функция определяет, является ли обнаруженная технология проприетарным программным обеспечением

RQ3 Python Эта функция определяет, основана ли найденная технология на python
Apache Spark
Узел Эта функция определяет, основана ли найденная технология на узле
Java Эта функция определяет, основана ли найденная технология на java
Ruby Эта функция определяет, основана ли найденная технология на рубине
Неизвестно Эта функция определяет, не позволяет ли обнаруженная технология узнать, на каком языке она основана

RQ4 ​​ Рекомендация Эта функция определяет i f найденная технология соответствует рекомендации
Классификация Этот признак определяет, соответствует ли найденная технология классификации

8.Процесс извлечения и отображения данных
8.1. Научный отчет

В этом разделе описаны наиболее важные аспекты, полученные на основе собранной информации. Для достижения этой цели на каждый из вопросов исследования будут даны ответы и подтверждены данные, полученные по каждому из них. Важно отметить, что некоторые особенности могут появиться в нескольких исследованиях; следовательно, итоговые значения не всегда могут соответствовать 100%. (i) Вопрос исследования RQ1 определяет методы, приемы и / или инструменты, которые были исследованы для систем классификации и рекомендаций.На рисунке 4 показано, что преобладающим типом исследований являются методы, которые составляют 35,00% от общего числа исследований, за которыми следуют полные системные исследования с показателем 23,75%. Остальные исследования соответствуют алгоритмам с 20,00%, анализу с присутствием 18,75% и, наконец, фреймворкам с 6,25% от общего числа первичных исследований. С точки зрения жизненного цикла разработки программного обеспечения (и избегания методологических дискуссий) этапы требований и анализа отличаются от этапа проектирования, поскольку это более ранний этап, который ближе к бизнесу (или модели приложения) и полностью не зависит от технологии.Затем найденные работы контекстуализируются на этапе технологического проектирования. На ранних стадиях не было найдено контекстуализированной работы (бизнес-требования или анализ). (Ii) Исследовательский вопрос RQ2 стремится узнать обоснованность найденных исследований, которые могут быть практическими или теоретическими, с указанием того, относятся ли они к научной или промышленной сфере. Полученные результаты (Рисунок 5) показывают, что все первичные исследования были академическими. Большинство из них было подтверждено каким-либо образом (97,50%), а 10,00% не прошли валидацию.Важно отметить, что в категории валидации были выделены три разные группы. Подгруппа экспериментов включает все исследования, предложение которых было проверено и подтверждено экспериментами с синтетическими и реальными источниками данных. Эта группа содержит большинство проверенных результатов, 72,50% от общего числа. Еще одна важная категория - это категория, которая проверяет предложения на основе тематического исследования, что составляет 13,75%. Только 5,00% первичных исследований были проведены посредством опросов, и только одно первичное исследование было сосредоточено на промышленном контексте, представляющем 1.25% от общего числа. (Iii) Вопрос исследования 3 направлен на определение характера методов, техник и / или инструментов, касающихся систем классификации и рекомендаций, которые можно найти в литературе. На рисунке 6 сгруппированы две основные категории, которые содержат весь набор характеристик найденных первичных исследований: рекомендации и классификация. В группе рекомендаций предложения по контентной и совместной фильтрации очень сбалансированы и составляют 36,25% и 38,75% соответственно. Гибридные системы хуже всех классифицируются - 17.50% бумаг. Кроме того, описывается классификационная группа, в которой представлены как контролируемое, так и неконтролируемое обучение. Их использование выделяется двумя особенностями: наивным байесовским методом для классификации в соответствии с вероятностями с 28,75% и вспомогательными векторами, представляющими 20,00% от общего числа. Целевой и случайный лес используются реже, при наличии только одного первичного исследования. (Iv) Вопрос исследования RQ4 указывает, какие основные точки интереса представляют собой исследования, а какие области менее изучены.Этот интерес подразделяется на четыре категории: новизна, анализ, исследование и улучшение (рис. 7). Новинка содержит те первичные исследования, цель которых - представить то, чего не хватало в литературе, и эта категория составляет 22,50% с 18 первичными исследованиями. Категория анализа содержит те результаты, которые представляют собой сравнение или изучение различных существующих методов, и составляет 7,50% от общего числа. Категория улучшения представляет собой 30,00% результатов, основной целью которых является улучшение существующего подхода.Наконец, самая большая категория - это исследовательская, в которой ведется поиск существующих или новых подходов в литературе. Это составляет 36,25% от общего числа с 29 первичными исследованиями.





Наконец, интересно проанализировать другие результаты, которые не относятся к вопросам исследования, а относятся к цели этого документа. Эти результаты могут помочь узнать об эволюции исследований систем классификации и рекомендаций.(i) На Рисунке 8 показана тенденция публикации по темам, связанным с системами классификации и рекомендаций. График показывает, что в последние годы эта тенденция усиливается, поэтому можно сделать вывод, что это предмет большого интереса для научного сообщества. Важно отметить, что на начало 2019 года уже более половины документов, отобранных для предыдущего года. (Ii) На Рисунке 9 представлено количество документов, полученных для каждой из электронных библиотек, и взаимосвязь с ними. окончательно выбран для дальнейшего изучения.Светло-зеленым цветом показаны первоначальные результаты, выделены ACM с 27 показанными документами, за которыми следуют SCOPUS и IEEE Xplore с 23 и 14 соответственно. ScienceDirect дал только 4 результата. Темно-зеленым показаны окончательно отобранные исследования каждой цифровой библиотеки.



8.2. Промышленный отчет

После описания результатов, полученных из научного отчета, в этом разделе представлен отчет о данных, необходимых для проведения исследования промышленного масштаба.(i) Вопрос исследования RQ1 находит продукты, которые были разработаны для систем классификации и рекомендаций. На рисунке 10 показано, что наиболее частыми результатами были полные системы и библиотеки или фреймворки с 5 и 4 предложениями соответственно. Следующие две функции - это API и инструменты, представляющие 3 и 4 предложения соответственно. На последнем месте он разместил функцию платформы, где было найдено всего одно предложение. Сумма полных систем и библиотек составляет 47,62% от общего числа предложений.Набор технологий, которые представляют API, составляет 14,29%, инструменты 9,52% и, наконец, платформа составляет 4,76% от общего числа. С точки зрения жизненного цикла разработки программного обеспечения (и избегания методологических дискуссий) этапы требований и анализа отличаются от этапа проектирования, поскольку это более ранние этапы, они ближе к бизнесу (или модели приложения) и полностью не зависят от технологии. Затем найденные работы контекстуализируются на этапе технологического проектирования. На ранних стадиях (бизнес-требования или анализ) контекстуализированная работа обнаружена не была.Вопрос исследования RQ2 направлен на определение того, являются ли продукты, полученные в этой области, бесплатными или проприетарными. Эта классификация представляет большой интерес для тех, кто может предполагать дополнительные затраты на выполнение проекта. Согласно определенной таксономии, Рисунок 11 показывает, что результаты сбалансированы до открытой стороны; коммерческое программное обеспечение с 8 предложениями составляет 38,10% от общего числа, а набор технологий свободного программного обеспечения состоит из 12 результатов, что составляет 57,14% от общего числа. (ii) Вопрос исследования RQ3 направлен на определение характера обнаруженных продуктов.В соответствии с таксономией, проведенной после извлечения признаков, полученные результаты показаны на Рисунке 12. Было обнаружено, что существует группа, которая объединяет большинство технологий. Эта группа соответствует Python с 7 результатами, что составляет 33,33% от общего числа. Следующая группа с самыми высокими результатами - R , с 28,57% после возврата 6 результатов. После этого размещается Java, что составляет 19,05% от общего числа. Затем технология Apache Spark классифицируется с получением 3 предложений, 14.29% от общей суммы. Наконец, есть две технологии с единым внешним видом, а именно Node и Ruby, на долю которых приходится 9,52% от общего числа найденных предложений. В рамках этого вопроса исследования подчеркивается, что большое количество проприетарного программного обеспечения не позволяло узнать, на какой технологии оно основано, поэтому они были включены в категорию других. Эта категория составила 14,29% результатов с 3 предложениями. (Iii) Вопрос исследования RQ4 определяет основную цель технологии. В этом случае были выделены две разные группы: системы классификации и рекомендации (Рисунок 13).В случае технологий, предлагающих систему классификации, всего было получено 10 предложений, что составляет 47,62% от реализованных технологий. В случае рекомендательных систем 76,19% технологий предлагали решение этой проблемы; то есть было найдено 16 предложений. Наконец, важно отметить, что 28,57% (6 предложений) от общего числа используют как регрессию, так и классификацию.



ИНФОРМАЦИОННАЯ ШКОЛА ИНФОРМАЦИОННАЯ ШКОЛА ИНФОРМАТИКА

ИНФОРМАЦИЯ 101 Технологии социальных сетей (5) I & S / NW
Исследует самые популярные современные социальные сети, игровые приложения и приложения для обмена сообщениями.Изучает технологии, социальные последствия и информационную структуру. Основное внимание уделяется логике, базам данных, сетевой доставке, идентификации, доступу, конфиденциальности, электронной коммерции, организации и поиску.
Подробная информация о курсе в MyPlan: INFO 101

INFO 200 Интеллектуальные основы информатики (5) I&S
Информация как объект изучения, включая теории, концепции и принципы информации, поиск информации, когнитивную обработку, представление знаний и реструктуризация и их отношение к физическому и интеллектуальному доступу к информации.Разработка информационных систем для хранения, организации и поиска. Опыт применения теорий, концепций и принципов.
Подробная информация о курсе в MyPlan: INFO 200

INFO 201 Технические основы (5) QSR
Знакомит с основными инструментами и технологиями, необходимыми для преобразования данных в знания. Охватывает полный жизненный цикл информации, включая сбор, хранение, анализ и визуализацию данных. Ключевые компетенции, лежащие в основе этого процесса, включая функциональное программирование, использование баз данных, обработку данных, контроль версий и навыки работы с командной строкой, приобретаются с помощью реальных задач, связанных с данными.
Подробная информация о курсе в MyPlan: ИНФОРМАЦИЯ 201

ИНФОРМАЦИЯ 290 Ориентация на информатику (1)
Предоставляет вновь поступившим студентам-информатикам подготовку, необходимую для успешной учебы по специальности. Включает обсуждение миссии iSchool / информатики, культуры, ценностей, ожиданий, ресурсов, степени и вариантов карьеры. Обеспечивает эффективную работу в классе, включая командную работу и лидерство, и уделяет внимание резюме, профилю LinkedIn, портфолио, собеседованию и подготовке к ярмарке вакансий.
Подробная информация о курсе в MyPlan: INFO 290

INFO 300 Research Methods (5)
Введение в методы исследования, используемые в информатике для понимания технологий, информации и поведения человека. Методы включают методы дизайна, инженерии и социальных наук. Темы включают науку и изобретения, виды исследовательского вклада, исследования через дизайн, теорию, этику и качественные / количественные эмпирические методы. Предварительное условие: STAT 220, STAT 221 / CS и SS 221 / SOC 221, STAT 290, STAT 311, STAT 390, QMETH 201 или Q SCI 381.
Подробная информация о курсе в MyPlan: INFO 300

INFO 310 Обеспечение информации и кибербезопасность (5) I&S, QSR
Теоретическое и практическое введение в обеспечение безопасности информации и кибербезопасность (IAC). Включает методы и приемы защиты информации и информационных систем. Охватывает, как возникают уязвимости, распознает развивающиеся угрозы и устраняет их. Исследует роль анализа рисков, конфиденциальности информации, подотчетности и политики.
Подробная информация о курсе в MyPlan: INFO 310

INFO 312 Enterprise Risk Management (4)
Исследует риски, связанные с использованием технологий, и способы управления рисками для информации, данных и технологий в организациях.Темы включают в себя основы управления рисками, толерантность к риску, ключевые показатели риска, законодательную и нормативную среду, соблюдение требований и новые способы управления рисками, такие как социальные сети и мобильные устройства.
Подробная информация о курсе в MyPlan: INFO 312

INFO 314 Компьютерные сети и распределенные приложения (5) NW
Основные концепции локальных и глобальных компьютерных сетей, включая обзор услуг, предоставляемых сетями, топологий сети и оборудования, пакетов коммутация, архитектура клиент / сервер, сетевые протоколы, а также сетевые серверы и приложения.Также решает проблемы управления, безопасности, аутентификации и политики, связанные с распределенными системами. Предварительное условие: CSE 142 или CSE 143.
Просмотрите подробности курса в MyPlan: INFO 314

INFO 330 Базы данных и моделирование данных (5) QSR
Введение в системы управления реляционными базами данных, ориентированное на теорию отношений и применение концептуальных, логических , и физическое моделирование баз данных. Ключевые темы включают реляционную модель, SQL, моделирование отношений сущностей, трехуровневые архитектуры, реализацию приложений баз данных и связанные темы в информационных системах.
Подробная информация о курсе в MyPlan: INFO 330

INFO 340 Разработка на стороне клиента (5) QSR
Введение в веб-разработку на стороне клиента, включая разметку, программирование, протоколы, библиотеки, фреймворки и методы для создания эффективных, удобных, динамические и отзывчивые приложения, отвечающие потребностям пользователей. Включает введение в роли веб-разработчиков в организациях, системы управления контентом и другие инструменты для создания и управления веб-сайтами и приложениями. Предварительное условие: CSE 142 или CSE 143; и ИНФОРМАЦИЯ 201.
Подробная информация о курсе в MyPlan: INFO 340

INFO 350 Информационная этика и политика (5) I&S
Предоставляет основу для анализа этических, правовых, экономических и социально-политических вопросов, связанных с информацией, информационными технологиями и информацией отрасли. Исследует политические и этические вопросы доступа к информации и контроля, включая; интеллектуальная собственность, обмен файлами, свобода слова, конфиденциальность и национальная безопасность.
Подробная информация о курсе в MyPlan: INFO 350

INFO 360 Методы проектирования (4) I&S
Методы проектирования для определения потребностей пользователей, разработки новых концепций дизайна, создания прототипов этих концепций и оценки полезности и удобства использования.Знакомит с теорией и практикой дизайна, ориентированного на пользователя. Методы определения потребностей пользователей, понимания их поведения, представления и создания прототипов новых систем, а также оценки удобства использования систем. Подчеркивает участие людей во всем процессе проектирования.
Просмотр сведений о курсе в MyPlan: INFO 360

INFO 362 Визуальный дизайн информации (5) VLPA
Повысьте скорость визуального представления информации в виде диаграмм, диаграмм, карт и значков. Научитесь решать проблемы дизайна, давать и получать критику, следовать повторяющемуся процессу улучшения дизайна и приобретать технические навыки.Поймите природу визуального потенциала, принципы визуального дизайна и влияние цвета и типографики.
Просмотрите сведения о курсе в MyPlan: INFO 362

INFO 370 Основные методы в науке о данных (5) QSR
Изучите основные темы науки о данных, включая прием данных, облачные вычисления, статистический вывод, машинное обучение, визуализацию информации и этика данных. Включает программирование на R и Python. Предпосылка: INFO 201; и CSE 142 или CSE 143; и либо STAT 220, STAT 221 / CS и SS 221 / SOC 221, STAT 290, STAT 311, STAT 390, QMETH 201 или Q SCI 381.
Подробная информация о курсе в MyPlan: ИНФОРМАЦИЯ 370

ИНФОРМАЦИЯ 386 Профессионализм в информатике (4)
Изучает профессионализм, общение, командную работу, лидерство и межличностное общение, чтобы укрепить студентов в их стремлении к профессиональному развитию. Охватывает разработку и представление бизнес-кейсов и планов проектов, персональный брендинг, проведение информационных интервью, а также эффективное письменное и устное общение.
Подробная информация о курсе в MyPlan: INFO 386

INFO 402 Пол, раса и информационные технологии (4) I&S, DIV
Исследует информационные технологии с феминистской точки зрения.Учитывает пересечение различий - пола, расы, класса, сексуальности и способностей - в исследованиях технологий и работе. Это исторический обзор женщин в сфере технологий, введение в технологическое образование и обсуждение женщин в ИТ-среде.
Подробная информация о курсе в MyPlan: INFO 402

INFO 430 Проектирование и управление базами данных (5)
Перспективы теории, архитектуры и реализации СУБД. Концептуальное, логическое, физическое моделирование. Структуры индекса, оптимизация запросов и настройка производительности, реляционная алгебра, обработка транзакций и контроль параллелизма.Оперативные базы данных, системы поддержки принятия решений и хранилища данных. Проекты по внедрению и интеграции баз данных. Социальные последствия больших распределенных систем баз данных. Предварительное условие: INFO 330.
Подробная информация о курсе в MyPlan: INFO 430

INFO 441 Серверная разработка (5)
Знакомство с программированием серверной веб-разработки, службами, инструментами, протоколами, передовыми методами и методами внедрения данных. управляемые и масштабируемые веб-приложения. Объединяет темы из ориентированного на человека дизайна, информационной архитектуры, баз данных, анализа данных и безопасности для создания решения.Предварительное условие: CSE 142 или CSE 143; и либо INFO 340, либо CSE 154; и ИНФОРМАЦИЯ 330.
Подробная информация о курсе в MyPlan: ИНФОРМАЦИЯ 441

ИНФОРМАЦИЯ 448 Мобильная разработка: Android (5)
Разработка приложений для устройств Android. Охватывает реализацию мобильных приложений, включая инструменты сборки, языки программирования и библиотеки, пользовательские интерфейсы, архитектуру приложений и отраслевые практики. Сосредоточен на использовании систем связи и датчиков, специфичных для мобильных платформ, для создания интерактивных, ориентированных на пользователя систем.программирование на Java и XML. Предпосылка: CSE 143; и INFO 340 или CSE 154.
Подробная информация о курсе в MyPlan: INFO 448

INFO 449 Мобильная разработка: IOS (5)
Разработка приложений для устройств iOS. Охватывает реализацию мобильных приложений, включая инструменты сборки, языки программирования и библиотеки, пользовательские интерфейсы, архитектуру приложений и отраслевые практики. Сосредоточен на использовании систем связи и датчиков, специфичных для мобильных платформ, для создания интерактивных, ориентированных на пользователя систем.Программирование на Swift и XML. Предпосылка: CSE 143; и либо INFO 340, INFO 343, либо CSE 154.
Просмотрите подробности курса в MyPlan: ИНФОРМАЦИЯ 449

ИНФОРМАЦИЯ 464 Дизайн, чувствительный к ценностям (5) VLPA
Введение в проектирование, чувствительное к ценностям (VSD), проектирование информационной системы, которое принципиально и всесторонне учитывает человеческие ценности. Изучение существующих систем с точки зрения VSD. Исследует методы исследования VSD, включая концептуальные, технические и эмпирические исследования.Ключевые ценности включают подотчетность, автономию, согласие, конфиденциальность, собственность, доверие, устойчивость. Предварительное условие: INFO 360, DESIGN 383, CSE 440 или HCDE 419.
Подробная информация о курсе в MyPlan: INFO 464

INFO 468 Проектирование для личного здоровья и благополучия (5) I&S
Основное внимание уделяется разработке технологий, ориентированных на человека для личного здоровья и благополучия. Студенты узнают, как понимать потребности людей в здоровье и благополучии, учитывать этические последствия, оценивать существующие инструменты и разрабатывать новые технологии для здоровья и благополучия.Студенты изучат теоретические и эмпирические подходы к оценке этих технологий. Предварительное условие: INFO 200, HCDE 210, HCDE 310, HCDE 318 или DESIGN 206.
Просмотр сведений о курсе в MyPlan: INFO 468

INFO 474 Интерактивная визуализация информации (5) VLPA, QSR
Методы и теория визуализации, анализировать и поддерживать взаимодействие со структурированными данными, такими как числа, текст и отношения. Предоставляет практический опыт проектирования и создания интерактивных визуализаций для Интернета.Знакомит студентов с когнитивными науками, статистикой и психологией восприятия. Для разработки и оценки визуализаций будет использоваться эмпирический подход. Предпосылка: INFO 340 или CSE 154; CSE 143; и либо QMETH 201, Q SCI 381, STAT 220, STAT 221 / CS и SS 221 / SOC 221, STAT 290, STAT 311 или STAT 390.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *