Главная Новости

Классификация данных

Опубликовано: 22.10.2023

Классификация данных

Классификация данных — обширная область анализа данных, цель которой — разделить данные объекты или субъекты на группы, которые обычно (но не обязательно) определяются заранее. Если группы не определены заранее, они кластеризация,что уже подробно описано в отдельной главе данных учебных материалов. Итак, мы видим, что с этой точки зрения кластерный анализ подпадает под классификацию данных.

Классификации данных обычно предшествует предварительная обработка данных, которая включает в себя обработку недостающие значения чей выбросы,как и я преобразование данных и, возможно, другие корректировки данных. За предварительной обработкой обычно следует сокращение данных, что позволяет выразить исходные переменные с использованием меньшего количества скрытых (латентных) переменных (т.е. добыча ) или, возможно, выбор таких описательных переменных из исходного файла (т.е. выбор,которые хорошо отличают группы объектов или субъектов друг от друга, что дает нам лучшие результаты классификации.

Классификация данных используется, например, для выявления деменции на основе когнитивных тестов, выявления генетических заболеваний на основе данных экспериментов с микрочипами, распознавания видов животных или растений, распознавания дефектных продуктов (например, орехов с внутренней трещиной у орехов без дефектов), распознавания лица людей при входе в охраняемое здание и т. д. Таким образом, целью классификации данных является:

  • решение о типе или характере объекта– например, что данное растение незабудка (Myosotis sylvatica), что данное животное это бурый медведь ([(14500 )]Ursus arctos), или что данное здание построено в стиле ренессанс - этоклассификация[(14505)], илизадача распознавания;
  • оценка качества состояния анализируемого объекта– например, здоров ли пациент или у него инфаркт миокарда, цирроз печени и т.д. – снова[( 14504)]классификация[(14505)],или.задача распознавания;
  • решения о будущем объекта- например, можно ли вылечить больного, погибнет ли лес через 20 лет, каков будет социальный состав населения в данная область в данный момент времени - это классификация,илизадача прогнозирования.

Во многих областях понятия классификации и прогнозирования не разграничиваются. Однако в некоторых научных областях эти термины имеют разные значения: термин «классификация» используется, когда алгоритм классификации применяется к известным данным. Если данные новые, для которых класс классификации заранее не известен, то говорят о прогнозировании класса классификации. Однако в других областях, где также различают термины классификация и прогнозирование, термин классификация используется, если мы выбираем идентификатор класса классификации из некоторого дискретного конечного числа возможных идентификаторов. Если мы определяем (прогнозируем) непрерывную величину, например, с помощью регрессии, то мы говорим о прогнозировании, даже если этот термин не имеет временного измерения. Таким образом, очевидно, что терминология не используется единообразно, и поэтому от отдельных научных областей зависит, как будут пониматься термины прогнозирование и классификация.

Существует также непоследовательность в использовании терминадискриминантный анализ, который часто воспринимается как синоним классификации данных. Однако на самом деле дискриминантный анализ представляет собой подмножество методов классификации. Классификация данных также называетсяинтеллектуальным анализом данных(интеллектуальным анализом данных),[(14500 )]машинное обучение(машинное обучение) илираспознавание изображений[( 14505)] (распознавание образов), при этом это не изображение в смысле произведения искусства или изображения мозга и т.п., а математическое описание свойств объекта или субъекта, которые мы хотим оценить, посредством вектор, график или другое математическое выражение.

Точно так же, как существует противоречие в терминологии, касающейся классификации данных, существует также противоречие и в разделении методов классификации. Их можно сортировать по категориям, например:

  • представление входных данных,
  • однозначное включение в группы,
  • типы классификации и алгоритмы обучения,
  • способ обучения
  • принцип классификации.

В следующих подразделах мы представим отдельные способы разделения методов классификации, а далее по тексту начнем с категоризации по принципу классификации.

rss