Data mining – википедия bitcoin prix nouvelles

Exploration de données (рус. Добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро en 1989 году [1] [2] [3].

Английское словосочетание « l’exploration de données»Пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания [4]: ​​просев информации, добыча данных, извлечение данных, et также интеллектуальный анализ данных [5] [6] [7].


Более полным и точным является словосочетание «обнаружение знаний в базах данных» (découverte de connaissances dans les bases de données, KDD).

Основу données de l’exploitation minière составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К нередко l’extraction de données de относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями l’exploration de données (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Ранее, работая в компании Labs GTE, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина – l’exploration de données («добыча данных» [9]) и découverte de la connaissance dans les données (который следует переводить как «открытие знаний в базах данных»).

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. В текущих условиях глобальной конкуренции именно найденные закономерности (знания) могут быть источником дополнительного конкурентного преимущества.

Методы l’exploration de données могут быть применены как для работы с большими данными, так и для обработки сравнительно малых объемов данных (полученных, например, по результатам отдельных экспериментов, либо при анализе данных о деятельности компании) [источник не указан 806 дней]. В качестве критерия достаточного количества данных рассматривается как область исследования, так и применяемый алгоритм анализа [источник не указан 806 дней].

Развитие технологий баз данных сначала привело к созданию специализированного языка – языка запросов к базам данных. Для реляционных баз данных – это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н «Хранилищ данных», сама структура которых наилучшим способом соответствует проведению всесторная математического анализа.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Перед использованием алгоритмов l’extraction de données необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой – быть достаточно компактными, чтобы анализ занял приемлемое время. Аще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Отфильтрованные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки. Например, черно-белое изображение лица размером 100 × 100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путём обнаружения в изображении глаз и рта. En savoir plus sur l’application de la garantie de 10 mois. бит до списка кодов положения, значительно уменьшая объём анализируемых данных, значит и время анализа.

Ряд алгоритмов умеют обрабатывать пропущенные данные, имеющие прогностическую силу (например, отсутствее у клиента покупок определенного вида). Скажем, при использовании метода ассоциативных правил (англ.) Русск. обрабатываются не векторы признаков, а наборы переменной размерности.