K-Means

Avantages de l'algorithme : 1) L'algorithme de k-means est très populaire du fait qu'il est très facile à comprendre et à mettre en ?uvre. 2) Sa simplicité 

Part of the document

Bases de DonnéesIntelligence Artificielle
Reconnaissance des FormesL'édifice cognitif
Représentation et manipulation de connaissances symboliques
Systèmes de mémorisation et de stockage de l'information
Protocoles de communication et d'échange de l'information
Processus de perception et de reconnaissance de formes et de structures
5Data
MiningAnalyse de
données...stockées dans des
bases de données ...
réparties sur un
réseau ...
pour la
reconnaissance/découverte
de structures/connaissances La spirale
technologique
6Exploration
de
données
Fouille
de
DonnéesData
Mining
?KDD
7Jean-Paul
Samia
Lin
SamyComment détecter des ressemblances, des structures, des motifs a priori ?
8
9Système de Reconnaissance de Formes Classique
Monde

Interprétation
10A
BDécisionApprentissage
A = Ensemble d 'échantillons pour chaque classe
A = AE Þ Apprentissage Non Supervisé
A ¹ AE Þ Apprentissage Supervisé
11CodagePrétraitement
Filtrage du bruit
Normalisation
Squelettisation
SegmentationAnalyse
" 3 »
avec un score de
0.6Décision
Apprentissage
12• Classification
• SegmentationDans le cas NON supervisé, les techniques spécifiques utilisées sont typiques des
applications dites de Fouille de Données
13Un problème typique visuel qui pourrait relever de la problématique de la Fouille de
Données plus que Reconnaissance des Formes
On donne ces données stockées
sur des supports électroniques
hétérogènes et non centralisés :
Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système parvient à détecter (structurer, extraire) la
présence de 10 formes différentes sans forcément les reconnaître, ou bien de 4 scripteurs différents sans forcément les identifier dans un
premier temps :
14Outre le paradigme de Reconnaissance des Formes, cette intégration nouvelle ou ce paradigme
nouveau est la résultante de problématiques arrivées à maturité ou à leur limite comme :
• Les systèmes experts issus de l'IA
• Les bases et les entrepôts de données
• Les protocoles réseaux normalisés
Créer une intelligence des systèmes, avec les potentialités de chacun des outils technologiques
intégrés -> le rêve de système pensant plus que pensé
Différence de points de vue entre : SELECTIONNE moi les NOMS des CLIENTS ayant
acheté du NUTELLA et du SAVON (requête de type SQL) et je (le logiciel) te (l'utilisateur du
logiciel) fais remarquer que les clients qui achète du Nutella achètent aussi du Savon
15Système Expert Classique
16Base de Données Classique
Protocole de Communication Réseau Classique
17PROD_VINSEXPEDITIONS
VITICULTEURS
VINSCOMMANDESBUVEURS
Schéma externeSchéma externe
Schéma conceptuel
application 1application 2LES VUES EXTERNES
CREATE VIEW
[(liste_attributs)]
AS
[WITH CHECK OPTION]
•Recalculé à chaque transaction l'impliquant
•L'expression de sélection peut porter sur des tables de
base et/ou des vues
•[WITH CHECK OPTION] : à manipuler avec des pincettes car
le problème des mmises à jour de la base au travers des
vues est loin d'être efficacement résoluLes Virtuelles ... côté client
dans le cadre du OLTP classique
18LES VUES EXTERNES
CREATE CONCRETE VIEW
[(liste_attributs)]
AS
•Vue Stockée en dur
•Si Vue souvent utilisée;
•Si Tables sources peu modifiées;
•Alors Mise à Jour par TRIGGER ou déclencheurs mais
pas automatique;
•Alors Vues orientées objets au-dessus des BDR.Les Concrètes ... côté serveur
Dans le cadre de l'OLAP, ROLAP,MROLAP
Pour le data warehouse
19CaractéristiquesOLTPOLAP
Opérations typiquesMise à jourAnalyse
Type d'accèsLecture et écritureLecture
Niveau d'analyseElémentaireGlobal
EcransFixeInteractif
Quantité d'info échangéeFaibleImportante
OrientationLigneMulti-dimensions
Taille BD100MB-GB1GB - TB
Ancienneté des donnéesRécenteHistoriqueOLTP versus OLAP
20Motivations des entreprises• Besoin des entreprises
-accéder à toutes les données de l'entreprise
-regrouper les informations disséminées dans les bases
-analyser et prendre des décisions rapidement (OLAP)
• Exemples d'applications concernées
-Bancaire : suivi des clients, gestion de portefeuilles
•mailing ciblés pour le marketing
-Grande distribution : marketing, maintenance, ...
•produits à succès, modes, habitudes d'achat
•préférences par secteurs géographiques
-Télécommunications : pannes, fraudes, mobiles, ...
•classification des clients, détection fraudes, fuites de clients, etc.
-Médecine, Pharmacie, Bourse, Production, ...
21L'approche entrepôt de données
•Datawarehouse
-Ensemble de données historisées variant dans le temps,
organisé par sujets, consolidé dans une base de données
unique, géré dans un environnement de stockage particulier,
aidant à la prise de décision dans l'entreprise.
•Trois fonctions essentielles :
-collecte de données de bases existantes et chargement
-gestion des données dans l'entrepôt
-analyse de données pour la prise de décision
22Architecture type
Moniteur/Adapteur
Sourc
eMédiateurBD
EntrepôtClient
décisionnelClient
décisionnel
Moniteur/Adapteur
BD sourceMoniteur/Adapteur
BD SourceDatawarehouse
BD légatairesExtraction, FiltrageTransformation, FusionAnalysePrésentation
Données externesExploration
Données
opérationnelles
23Data MartsBases
multidimensionnelles
Bases externesOutils
d'alimentationData Warehouse
Bases de
production
Bases
relationnellesSGBD
relationnel
Outils
d 'extractionDatamart (Magasin de données)
•sous-ensemble de données extrait du
datawarehouse et ciblé sur un sujet unique
24Modélisation multidimensionnelle
•Dimensions:
-Temps
-Géographie
-Produits
-Clients
-Canaux de ventes.....
•Indicateurs:
-Nombre d'unités vendues
-CA
-Coût
-Marge.....
25Le data cube et les dimensions
Axe d'analyse: Le temps
(Année, trimestre, mois, semaine)Variables analysées:
Nb unités, CA, marge...Axe d'analyse: La géographie
(Pays - région - ville)
Axe d'analyse: Les produits
(classe, produit)
Axes d'analyse: dimensions
Variables analysées: indicateurs
26La granularité des dimensions
JoursAnnéesTrimestresMoisTemps
PaysRégionsVillesGéographie
GammesTypesNumérosProduitsMarques
27France
Sud
MarseilleNiceLyonEstOuestCAProjection en 2 dimensions
Réduction selon 1 dimension
Zoom selon une dimensionCoupe d 'un cube
Produits
Région
Produits
Temps en moisCAProduits
Temps en semainespour une région donnéeLa navigation
multidimensionnelle
CA
28Bilan OLAP
• La modélisation multidimensionnelle est adaptée à
l 'analyse de données
• Le datacube est au centre du processus décisionnel
-transformation et visualisation 3D
-une algèbre du cube :
•Slice, Dice, Rollup, Drilldown (SQL spécifique)
29Qu 'est-ce-que le data mining ?
Données
entrepôtData
miningConnaissances
Découverte de
modèlesCompréhension
Prédiction• Data mining
-ensembles de techniques d'exploration de données afin d'en tirer
des connaissances (la substantifique moelle) sous forme de modèles
présentées à l 'utilisateur averti pour examen
• Connaissances
-analyses (distribution du trafic en fonction de l 'heure)
-scores (fidélité d 'un client), classes (mauvais payeurs)
-règles (si facture > 10000 alors départ à 70%)
30Mécanismes de base
•Déduction : base des systèmes experts
-schéma logique permettant de déduire un théorème à partir
d'axiomes
-le résultat est sûr, mais la méthode nécessite la connaissance de
règles
•Induction : base du data mining
-méthode permettant de tirer des conclusions à partir d'une série
de faits
-généralisation un peu abusive
-indicateurs de confiance permettant la pondération
31Entrées
SortieConfianceDécouverte de modèles
•Description ou prédiction
•Apprentissage sur la base
•Utilisation pour prédire le futur
•Exemple : régression linéaire Y = a X + B
32Le matériel biologique
33A ce compte là, il ne s'agit plus d'apprendre donc de reconnaître mais déjà de comprendre donc de structurer
Comment analyser, visualiser, structurer des grandes masses de données réparties, hétérogènes
34>cDNA inconnu

Clustering de données extrait du datawarehouse et ciblé sur un sujet unique présentées à l 'utilisateur averti pour examen par Optimisation type K-Means, ISODATA.
Application de k-means - Dspace classification non supervisée dont le plus simple est l'algorithme de k-means. Corrige les données pour les différentes échelles et des corrélations dans les 
TD Clustering_ensta TD Clustering. ENSTA ParisTech INT-22. Exercice 1 : K-means. Utilisez l'?algorithme du k-means et la distance euclidienne pour regrouper les 8 exemples? 
Méthode des K-means - Université Lumière Lyon 2 Algorithme K-Means ? Méthode des centres mobiles. 3. Cas des variables actives qualitatives. 4. Fuzzy C-Means. 5. Classification de variables. 6. Conclusion.
Data-Mining Corrigé Examen 2002/2003 1 Clustering (13 points) Corrigé Examen 2002/2003. 4eme année. 1 Clustering (13 points). X 1 2 9 12 20. 1. (7 points) K-Means. (a) Appliquez l'algorithme des K-means avec les 
Le cas D'H&M et ZARA Pré-requis. Aucun. Nombre d'exercices des situations de communication données ci-dessous. 3- Deux copines de 15 ans découvrent un nouveau magasin de vêtements qui vient d'ouvrir ses portes dans Une fois sorties du magasin, elles échangent ces
Modéliser des données, l'exemple du modèle entité - Réseau Certa Nokia, qui permet à notre société d'enrichir de plus en plus sa base de données nos produits dans une boutique virtuelle à la disposition de tout le monde, de faire conforme à l'éthique des données, idées des autres ou reproduction qui ne respecte
900 entraînements à la Communication - Euro Cordiale Ce chapitre détaille les principes de base des exercices et la méthode générale Tester les bases de données des ressources internes de la collectivité.
Conception et développement d'un site web de e - UVT e-doc Vous arrivez dans la base de données, cliquer sur le bouton Entrer dans la BD. Quand le sujet d'une table est un événement, il représente quelque chose qui Voici une table qui représente les catégories de ce que vend un magasin de vélo Vêtemen
Gestion de Bases de données Access 2010 - Index of 9 CORRIGÉ DE L'EXERCICE 33 : MODÈLES DE DONNÉES DU JEU D'ESSAI .? 158 doit ensuite être optimisé par l'administrateur de la base de données. de son magasin pour l'agent de la CCCP. vêtement. 12.3.2 MCD 2. Dans ce modèle de données, le
licence 3 gestion/finance 2016-2017 - AGP1 La préparation des exercices détaillés préalablement à l'examen du corrigé. 4. mations dans une base de données multidimensionnelle. Par exemple, les frais de rénovation d'un magasin ne se traduisent pas par une négociant achetait du drap et l
tage mage test d'entraînement corrigé - Ecricome EXERCICE 1. Une personne physique seule peut-elle créer une entreprise ? Si oui, donnez des exemples. Oui - un artisan électricien, un magasin de vêtements?