Ch 2 – données statistiques scientifiques vs apprentissage machine – securonix maîtrise Bitcoin pdf
la science des données est un domaine qui recoupe plusieurs disciplines techniques, y compris l’informatique, les statistiques et les mathématiques appliquées Bitcoin google. L’objectif de la science des données est d’utiliser des méthodes scientifiques pour extraire des informations précieuses à partir des données.
Les progrès dans le stockage de données à grande échelle et l’informatique distribuée nous ont permis de traiter les volumes notoirement importantes de données générées par le réseau et l’activité Internet. Disponibilité et accessibilité financière des ressources informatiques de haute performance a permis aux scientifiques de données pour élaborer des modèles sophistiqués et d’analyser grands ensembles de données qui étaient autrefois écrasante.
Les statistiques et l’apprentissage de la machine sont deux des principales techniques employées par la science des données, et ils partagent le même objectif: apprendre des données.
Alors que les différences entre les deviennent moins prononcées en raison de l’emprunt lourd de l’autre, il est important de comprendre les méthodes utilisées et l’applicabilité de chacun d’apprécier toute la gamme des capacités qu’ils apportent à la science des données.
Statistiques concerne des inférences à partir des données. Cela implique souvent d’essayer de comprendre le mécanisme sous-jacent par lequel des données est créée et l’application d’une technique appropriée pour modéliser le processus youtube minier Bitcoin. Afin de le faire, les hypothèses sont faites sur les données pour construire un modèle tractable et en tirer des enseignements.
Lorsque la tâche consiste à comprendre la structure dans les données pour obtenir des résultats, des modèles statistiques d’Excel généralement à identifier les tendances sous-jacentes et compte pour leur incertitude dans leur cadre probabiliste Bitcoin cnn. Cela nécessite généralement un petit nombre de caractéristiques et une grande quantité de données pour faire en sorte que les estimations nécessaires sont robustes afin d’en tirer des informations utiles à partir du modèle.
Par exemple, lors de l’analyse des montants des transactions quotidiennes, les analystes de sécurité peuvent être intéressés à identifier des valeurs anormales pour les jours spécifiques qui pourraient indiquer une activité malveillante. Ils peuvent utiliser le raisonnement statistique pour regarder la moyenne quotidienne des montants de transaction et invoquer le théorème central limite pour justifier l’hypothèse que les moyennes sont normalement distribués.
Une fois une distribution normale est ajustée aux données, ses paramètres estimés (moyenne et variance) peuvent être utilisés pour définir une plage de valeurs considérées comme une activité normale Bitcoin statistiques. Ces montants qui sont en dehors de cette plage sont jugées suspectes car elles sont improbables et une enquête plus poussée par les analystes de la sécurité.
La ligne bleue est la distribution normale équipée. Les valeurs anormales se situent dans la plage indiquée par les flèches; ceux-ci sont signalés à chaque observation et envoyé à l’analyste pour une inspection plus poussée.
La détection d’événements anormaux va au-delà des informations numériques comme moyen de transactions par jour en cours prix de Bitcoin en Inde. En particulier, pour estimer et marquer des événements rares pour les données non numériques ou catégoriques, nous devons soit comprendre le processus de génération de données sous-jacentes pour modéliser correctement, ou d’utiliser des méthodes statistiques supplémentaires pour quantifier et échelle variables.
Dans l’exemple ci-dessous, analyse des correspondances multiples (MCA) est utilisé pour transformer les variables qualitatives en coordonnées dans l’espace défini par les principales composantes principales (deux dimensions sont indiquées). L’analyse de la concentration est ensuite réalisée dans le même espace à des personnes de groupe avec des catégories similaires et d’identifier les valeurs aberrantes.
Les statistiques vise à déduire les relations entre les entrées et les sorties et parvient à expliquer le processus sous-jacent lorsque toutes les hypothèses sur la randomisation et la distribution de probabilité sont remplies comment faire Bitcoin travail des portefeuilles. Cependant, de nombreux processus de la vie réelle, bien que complexe, sont loin d’être aléatoire, et la mise en place d’une expérience de l’échantillon est aléatoire souvent impossible. Le modèle statistique, dans ce cas, pourrait avoir encore pouvoir explicatif, mais faible puissance prédictive, car il suit les hypothèses erronées et pourrait donc induire en erreur.
ensembles de données modernes sont riches, variés et de grande dimension, avec des données agrégées provenant de sources multiples, chacun représentant un processus complexe sur sa propre façon d’acheter une Bitcoin. Montage de la distribution ici nécessite l’estimation d’un grand nombre de paramètres, et il y a un risque de tirer des conclusions douteuses en donnant des informations précieuses, lorsque les caractéristiques importantes de données ne sont pas reconnues, ou en capturant des informations erronées. Inférences sont également difficiles dans les cas où le nombre de caractéristiques dépasse considérablement le nombre d’observations Bitcoin hébergement web. Un modèle statistique précis pour ces problèmes pourrait être trop lourd à construire, et fréquente ou même des mises à jour en temps quasi réel nécessaires pour refléter le paysage changeant de la menace sont susceptibles d’être informatiquement cher.
Bien que les statistiques, dans un sens traditionnel, est concerné par inférence et repose sur un ensemble d’hypothèses sur les données, l’apprentissage machine (ML) prend peu, apprend à partir des données sans être programmé de façon explicite, et met l’accent sur la prévision sur la modélisation des données directement. ML découvre de façon empirique des relations dans les données, met l’accent sur les caractéristiques importantes et ne tient pas les bruyants, et ne doit extraire des caractéristiques à partir des données qui sont utiles pour faire des prédictions.
En traitant le processus de génération de données comme une boîte noire et en se concentrant uniquement sur la capacité prédictive, le principal avantage de ML est sa capacité à obtenir des résultats sans hypothèses explicites sur les données. En particulier, lorsque le traitement des données de grande dimension, les informations contenues dans les peut être codé dans un modèle algorithmique sans avoir à comprendre chaque fonctionnalité individuellement La technologie Bitcoin. Depuis discerner la structure au sein de données ne sont pas la mise au point, les algorithmes valorisent des informaticiens qui ont une bonne évolutivité et d’efficacité.
Par exemple, lors de l’analyse des cas de disposition des incidents de sécurité par l’analyste, classificateur ML peut être construit pour modéliser les choix de l’analyste. Ce classificateur peut alors être utilisé pour prédire l’issue probable des cas futurs, augmenter la capacité de l’analyste pour examiner les cas, ce qui raccourcit le temps de triage et de permettre aux analystes de mieux donner la priorité leur travail. Le processus de pensée de l’analyste est trop complexe pour modéliser directement, mais en se concentrant uniquement sur la qualité des prévisions, le classificateur peut éviter cette difficulté et de reproduire les choix des analystes relativement bien.
L’arbre de décision est un algorithme simple et intuitive qui produit facile à interpréter les résultats, mais il n’est pas en mesure de saisir les relations complexes dans les données complexes comme celui-ci et donc aura une performance prédictive faible. Random Forest, qui est un ensemble d’arbres de décision, est une classification puissante et algorithme de régression qui est généralement résistant à surapprentissage (bruit de modélisation) et a une forte puissance prédictive Bitcoin vs USD tableau. Non seulement peut-il gérer la complexité du processus de décision de l’analyste, mais il peut même capturer des chemins de décision divers des différents analystes travaillant sur les cas.
Cette puissance et la flexibilité a un coût: en utilisant essentiellement une approche de la boîte noire à la prédiction, nous sacrifions l’interprétation des résultats. installations statistiques supplémentaires sont nécessaires pour créer une telle interprétation. Le défi de la DARPA « explicitable Intelligence artificielle » (https://www.darpa.mil/attachments/DARPA-BAA-16-53.pdf) indique clairement la nécessité pour les modèles ML explicables et la difficulté à développer des techniques d’explication efficaces.
Au cœur de notre méthodologie de la science des données est l’apprentissage statistique, un puissant mélange de statistiques appliquées et des techniques d’apprentissage automatique à grande échelle visant à découvrir les modèles complexes dans les données et la prévision des résultats futurs. Le choix des méthodes spécifiques de l’apprentissage statistique est régie par le type de données et le problème étant résolu, en mettant l’accent sur l’analyse automatique avec minimum d’intervention humaine. Appliqué à l’analyse de sécurité, cette approche nous permet de détecter les cyber-menaces avancées et sophistiquées dans le moins de temps et avec le moins d’erreurs.