Skip to content

Latest commit

 

History

History
30 lines (21 loc) · 2.83 KB

Integration_des_donnees.md

File metadata and controls

30 lines (21 loc) · 2.83 KB

Intégration des données dans la base SQL

I) Création des difféentes tables de données

Une base de données SQL avait été créée avec l'aide de l'outil de conceptualisation Mocodo.
Une fois que le fichier de données est nettoyée avec Open Refine, il peut être exporté au format SQL et être intégré dans une base de données. Pour cela, il faut sélectionner export tabulaire personnalisé sur Open Refine qui permet de choisir le format et les colonnes que l'on souhaite exporter.

II) Export SQL des différentes tables

Avec Open Refine, l'opération est simple, on choisit export SQL, le logiciel propose différentes options comme l'intégration du schéma, c'est-à-dire, les instructions SQL qui permettent de créer la table si elle n'existent pas ou la valeur des différentes colonnes comme INT, VARCHAR. Le schéma n'est pas nécessaire quand les tables sont créées dans la base de données, Il faut juste conserver la fonction INSERT INTO ('nom de la colonne').

III) Intégration des données

La prochaine étape consiste à importer les fichier SQL créés dans notre base de données, la base de données a été créé avec MySQL et elle est gérée avec l'interface graphique phpMyAdmin. Pour éviter la moindre perte du travail, une sauvegarde de la base est effectuée pour pouvoir la recréer si un problème survenait.
Pour éviter des erreurs lors de l'intégration des données, les tables courantes qui continnent les données sont importées en premier puis les tables associatives qui assurent les jointures entre les tables courantes. Déselectionnez verification des clés étrangères quand ces dernières sont déjà créées.
Lorsque que les données sont intégrées avec la vérification activée, nous avons une erreur à cause d'une contrainte de clé étrangère. Les tables ont été importées avec succès, pour vérifier que les jointures étaient bien effectuées, des requêtes SQL impliquant différentes tables ont été formulées.

De nouvelles colonnes ont été créées par la suite, il s'agit des colonnes professions_unified dans les tables persons et companies. Ces colonnes uniformisent les métiers dans Adressbuch pour rassembler les métiers dans différents groupes (ex : professions_verbatim => deutsch lehrer, professions_unified => lehrer).

  • voir ici l'étape précédente sur le nettoyage des données avec Open Refine.
  • les tables SQL de Adressbuch sont disponibles ici
  • les tables CSV de Adressbuch sont disponibles ici
  • voir ici la suite du projet avec l'interconnexion entre Cakephp et la base SQL