K-Means

Avantages de l'algorithme : 1) L'algorithme de k-means est très populaire du fait qu'il est très facile à comprendre et à mettre en ?uvre. 2) Sa simplicité 

Part of the document

Bases de DonnéesIntelligence Artificielle
Reconnaissance des FormesL'édifice cognitif
Représentation et manipulation de connaissances symboliques
Systèmes de mémorisation et de stockage de l'information
Protocoles de communication et d'échange de l'information
Processus de perception et de reconnaissance de formes et de structures
5Data
MiningAnalyse de
données...stockées dans des
bases de données ...
réparties sur un
réseau ...
pour la
reconnaissance/découverte
de structures/connaissances La spirale
technologique
6Exploration
de
données
Fouille
de
DonnéesData
Mining
?KDD
7Jean-Paul
Samia
Lin
SamyComment détecter des ressemblances, des structures, des motifs a priori ?
8
9Système de Reconnaissance de Formes Classique
Monde

Interprétation
10A
BDécisionApprentissage
A = Ensemble d 'échantillons pour chaque classe
A = AE Þ Apprentissage Non Supervisé
A ¹ AE Þ Apprentissage Supervisé
11CodagePrétraitement
Filtrage du bruit
Normalisation
Squelettisation
SegmentationAnalyse
" 3 »
avec un score de
0.6Décision
Apprentissage
12• Classification
• SegmentationDans le cas NON supervisé, les techniques spécifiques utilisées sont typiques des
applications dites de Fouille de Données
13Un problème typique visuel qui pourrait relever de la problématique de la Fouille de
Données plus que Reconnaissance des Formes
On donne ces données stockées
sur des supports électroniques
hétérogènes et non centralisés :
Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système parvient à détecter (structurer, extraire) la
présence de 10 formes différentes sans forcément les reconnaître, ou bien de 4 scripteurs différents sans forcément les identifier dans un
premier temps :
14Outre le paradigme de Reconnaissance des Formes, cette intégration nouvelle ou ce paradigme
nouveau est la résultante de problématiques arrivées à maturité ou à leur limite comme :
• Les systèmes experts issus de l'IA
• Les bases et les entrepôts de données
• Les protocoles réseaux normalisés
Créer une intelligence des systèmes, avec les potentialités de chacun des outils technologiques
intégrés -> le rêve de système pensant plus que pensé
Différence de points de vue entre : SELECTIONNE moi les NOMS des CLIENTS ayant
acheté du NUTELLA et du SAVON (requête de type SQL) et je (le logiciel) te (l'utilisateur du
logiciel) fais remarquer que les clients qui achète du Nutella achètent aussi du Savon
15Système Expert Classique
16Base de Données Classique
Protocole de Communication Réseau Classique
17PROD_VINSEXPEDITIONS
VITICULTEURS
VINSCOMMANDESBUVEURS
Schéma externeSchéma externe
Schéma conceptuel
application 1application 2LES VUES EXTERNES
CREATE VIEW
[(liste_attributs)]
AS
[WITH CHECK OPTION]
•Recalculé à chaque transaction l'impliquant
•L'expression de sélection peut porter sur des tables de
base et/ou des vues
•[WITH CHECK OPTION] : à manipuler avec des pincettes car
le problème des mmises à jour de la base au travers des
vues est loin d'être efficacement résoluLes Virtuelles ... côté client
dans le cadre du OLTP classique
18LES VUES EXTERNES
CREATE CONCRETE VIEW
[(liste_attributs)]
AS
•Vue Stockée en dur
•Si Vue souvent utilisée;
•Si Tables sources peu modifiées;
•Alors Mise à Jour par TRIGGER ou déclencheurs mais
pas automatique;
•Alors Vues orientées objets au-dessus des BDR.Les Concrètes ... côté serveur
Dans le cadre de l'OLAP, ROLAP,MROLAP
Pour le data warehouse
19CaractéristiquesOLTPOLAP
Opérations typiquesMise à jourAnalyse
Type d'accèsLecture et écritureLecture
Niveau d'analyseElémentaireGlobal
EcransFixeInteractif
Quantité d'info échangéeFaibleImportante
OrientationLigneMulti-dimensions
Taille BD100MB-GB1GB - TB
Ancienneté des donnéesRécenteHistoriqueOLTP versus OLAP
20Motivations des entreprises• Besoin des entreprises
-accéder à toutes les données de l'entreprise
-regrouper les informations disséminées dans les bases
-analyser et prendre des décisions rapidement (OLAP)
• Exemples d'applications concernées
-Bancaire : suivi des clients, gestion de portefeuilles
•mailing ciblés pour le marketing
-Grande distribution : marketing, maintenance, ...
•produits à succès, modes, habitudes d'achat
•préférences par secteurs géographiques
-Télécommunications : pannes, fraudes, mobiles, ...
•classification des clients, détection fraudes, fuites de clients, etc.
-Médecine, Pharmacie, Bourse, Production, ...
21L'approche entrepôt de données
•Datawarehouse
-Ensemble de données historisées variant dans le temps,
organisé par sujets, consolidé dans une base de données
unique, géré dans un environnement de stockage particulier,
aidant à la prise de décision dans l'entreprise.
•Trois fonctions essentielles :
-collecte de données de bases existantes et chargement
-gestion des données dans l'entrepôt
-analyse de données pour la prise de décision
22Architecture type
Moniteur/Adapteur
Sourc
eMédiateurBD
EntrepôtClient
décisionnelClient
décisionnel
Moniteur/Adapteur
BD sourceMoniteur/Adapteur
BD SourceDatawarehouse
BD légatairesExtraction, FiltrageTransformation, FusionAnalysePrésentation
Données externesExploration
Données
opérationnelles
23Data MartsBases
multidimensionnelles
Bases externesOutils
d'alimentationData Warehouse
Bases de
production
Bases
relationnellesSGBD
relationnel
Outils
d 'extractionDatamart (Magasin de données)
•sous-ensemble de données extrait du
datawarehouse et ciblé sur un sujet unique
24Modélisation multidimensionnelle
•Dimensions:
-Temps
-Géographie
-Produits
-Clients
-Canaux de ventes.....
•Indicateurs:
-Nombre d'unités vendues
-CA
-Coût
-Marge.....
25Le data cube et les dimensions
Axe d'analyse: Le temps
(Année, trimestre, mois, semaine)Variables analysées:
Nb unités, CA, marge...Axe d'analyse: La géographie
(Pays - région - ville)
Axe d'analyse: Les produits
(classe, produit)
Axes d'analyse: dimensions
Variables analysées: indicateurs
26La granularité des dimensions
JoursAnnéesTrimestresMoisTemps
PaysRégionsVillesGéographie
GammesTypesNumérosProduitsMarques
27France
Sud
MarseilleNiceLyonEstOuestCAProjection en 2 dimensions
Réduction selon 1 dimension
Zoom selon une dimensionCoupe d 'un cube
Produits
Région
Produits
Temps en moisCAProduits
Temps en semainespour une région donnéeLa navigation
multidimensionnelle
CA
28Bilan OLAP
• La modélisation multidimensionnelle est adaptée à
l 'analyse de données
• Le datacube est au centre du processus décisionnel
-transformation et visualisation 3D
-une algèbre du cube :
•Slice, Dice, Rollup, Drilldown (SQL spécifique)
29Qu 'est-ce-que le data mining ?
Données
entrepôtData
miningConnaissances
Découverte de
modèlesCompréhension
Prédiction• Data mining
-ensembles de techniques d'exploration de données afin d'en tirer
des connaissances (la substantifique moelle) sous forme de modèles
présentées à l 'utilisateur averti pour examen
• Connaissances
-analyses (distribution du trafic en fonction de l 'heure)
-scores (fidélité d 'un client), classes (mauvais payeurs)
-règles (si facture > 10000 alors départ à 70%)
30Mécanismes de base
•Déduction : base des systèmes experts
-schéma logique permettant de déduire un théorème à partir
d'axiomes
-le résultat est sûr, mais la méthode nécessite la connaissance de
règles
•Induction : base du data mining
-méthode permettant de tirer des conclusions à partir d'une série
de faits
-généralisation un peu abusive
-indicateurs de confiance permettant la pondération
31Entrées
SortieConfianceDécouverte de modèles
•Description ou prédiction
•Apprentissage sur la base
•Utilisation pour prédire le futur
•Exemple : régression linéaire Y = a X + B
32Le matériel biologique
33A ce compte là, il ne s'agit plus d'apprendre donc de reconnaître mais déjà de comprendre donc de structurer
Comment analyser, visualiser, structurer des grandes masses de données réparties, hétérogènes
34>cDNA inconnu