fbpx

Lire un fichier .csv

Dans cet article, nous allons reprendre certaines bases et initier une nouvelle série de tutoriels. Pour bien débuter, nous avons décidé de vous apprendre de A à Z à lire un fichier .csv grâce à une vidéo explicative mais aussi un tutoriel écrit.




Comment lire un fichier .csv ?

 

Dans un premier temps, créez un nouveau projet et appelez le « tutoriels_talend ». 


Configuration de la TAC - Configuration du SVN

Vous pouvez ensuite cliquer sur « Créer » 


Configuration de la TAC - Création d'un projet Talend

Sélectionnez le projet nouvellement crée puis cliquez sur « Terminer » afin de l’ouvrir. 

Le studio Talend devrait maintenant s’ouvrir. 

Comme vous venez de créer un nouveau projet, aucun job n’est présent, cliquez sur « Start now » et nous allons pouvoir créer votre premier job Talend. 



Ça y est, vous voici dans le cœur du studio, c’est ici que tout se passe. Il vous faut faire un clic droit sur job, et en créer un nouveau. Appelez le « Lecture_job». 



Me manière générale en informatique, du moins lorsque vous développez, évitez TOTALEMENT les accents. Ici Talend vous interdit les caractères spéciaux (accents, espaces, etc…) pour le Nom du job, mais il est toujours bon de le préciser, cela pourrait vous poser des soucis par la suite. 

Une bonne pratique est également de remplir les champs Objectif et Description des jobs que vous créez. 

Leurs noms sont assez explicites, mais nous reviendrons sur ce que j’ai écrit dans le champ « Description » quand nous aborderons le versionnage des Jobs. 

 

Vous pouvez maintenant cliquer sur « Finish » afin de lancer la création du job. 



Bien, nous voici maintenant là où tout se passe. Au centre de votre studio se trouve le « Job Designer » c’est ici que vous allez pouvoir assembler les différents composants présents dans la « Palette » afin de construire votre Job. 

Avant d’aller plus loin, nous devons créer un petit fichier « .csv » afin de pouvoir le lire. Vous pouvez le télécharger ici.



Petite astuce pour générer des noms de manière aléatoire, rendez-vous sur : https://fr.fakenamegenerator.com/ cela vous permettra de pouvoir générer des noms fictifs ainsi que d’autre informations d’identités qui peuvent vous servir lors de tests. 

 

Vous avez téléchargé le fichier « .csv » déplacez-le dans un endroit où vous avez les droits d’accès, et que vous connaissez. 

Pour ma part, j’ai choisi de créer un nouveau dossier dans mon « Workspace » de Talend et de le mettre dedans, mais libre à vous de le mettre où vous voulez. 



Retournons maintenant sur Talend, et ajoutons votre premier composant ensemble. 

Ce composant est le tInputFileDelimited, vous le trouverez dans la « Palette » à l’onglet « Fichier » puis lecture. Vous pouvez également utiliser la barre de recherche de la « Palette ».  

Ce composant permet de récupérer les données qui sont présente en un fichier délimité, ici un fichier csv. 



Pour l’ajouter à votre « Job Designer » deux choix s’offrent à vous :  

  • Cliquez sur le composant, puis cliquez sur votre « Job Designer » 
  • Faites un glisser-déposer du composant sur votre « Job Designer » 


Votre composant est donc maintenant présent sur le « job Designer ». 

Vous pouvez voir qu’un point d’exclamation est présent sur votre composant, passez la souris dessus et Talend vous dira l’erreur qui est présente. 

Afin de la résoudre, il nous faut définir un schéma et un lien de sortie. 

Pour définir un schéma, cliquez sur votre composant, et allez dans l’onglet « Composant » sous votre « job Designer ». Cliquez ensuite sur l’icône a droite du champ « Modifier le schéma » comme présenté sur l’image ci-dessous. 



Un pop-up devrait maintenant s’ouvrir.  

Vous devez maintenant ajouter des colonnes, pour se faire cliquez sur le « + » vert. 

Les colonnes que vous allez ajouter correspondent aux colonnes du fichier csv définit plus haut. Il vous faudra donc modifier leur nom et leur type en conséquence. 



Une fois paramétré correctement, vous devriez avoir le résultat suivant :  



Vous pouvez maintenant cliquer sur « OK » afin de sauvegarder cette configuration de schéma. 

Il nous faut maintenant définir le chemin d’accès au fichier csv. Pour le faire vous pouvez modifier directement le chemin dans le champ prévu à cet effet, ou bien cliquer sur l’icône à droite de ce champ et venir le sélectionner graphiquement. 




Une fois le fichier pointé, il vous suffit de cliquer sur ouvrir, et le chemin sera automatiquement modifié. Sympa non ? 

 

Encore un dernier point sur ce composant et il sera totalement opérationnel. 

Le fichier csv que nous avons dispose d’un en-tête, il faut donc l’indiquer à Talend afin qu’il ignore cette ligne. 



Remplacez donc le « 0 » par un « 1 ». 

Bien maintenant que le composant qui permet de récupérer les données contenues dans ce fichier est paramétré, il nous faut un composant qui permet d’afficher ces données. 

Le composant tLogRow vous permet de faire cela. 

Je vous laisse l’ajouter comme nous avons fait précédemment pour le tFileInputDelimited. 



Il ne nous reste plus qu’à relier ces deux composants. Faites un clic droit sur votre tFileInputDelimited et choisissez une connexion de type « main » dans le sous-menu « Row ». 

Il ne vous reste plus qu’à cliquer sur votre composant cible, ici le tLogRow. 

Cette connexion est la plus couramment utilisée dans Talend, elle vous permet de faire transiter les données d’un composant à un autre. 

Les autres liaisons sont également très utiles selon ce que l’on souhaite faire. Elles seront étudiées au cours d’autres tutoriels ne vous inquiétez pas. 



La connexion effectuée, les plus attentifs d’entre vous auront pu remarquer que les points d’exclamations auront disparu des composants. 

Cela veut dire que vos composants sont correctement paramétrés. 

Il ne nous reste plus qu’à exécuter le job et observer le résultat. 

 

Pour l’exécuter rendez-vous sur l’onglet « Exécuter » puis cliquez sur « Exécuter ». 



Le résultat s’affichera dans le champ juste en dessous. 



Vous pouvez être fier, vous venez de créer votre premier job Talend. 

Cependant vous remarquerez que la lecture est un peu difficile, je vais donc vous donner une petite astuce afin d’améliorer la lisibilité de vos composants tLogRow. 

Cliquez sur votre composant tLogRow, allez dans l’onglet composant et sélectionnez « Tableau » dans le mode d’affichage. 



Réexécutez le job et observez la différence. Avouez que c’est quand même plus sympathique comme affichage. 



Ce tutoriel est maintenant terminé. Dans le prochain vous apprendrez à créer un fichier csv. 

Sur le même sujet...


Installation des runtimes et jobserver Talend

Installer et configurer les runtimes et le jobserver Talend sous Linux

Découvrir

Construction d’un Job Talend et déploiement dans différents contextes

Apprendre à construire un job et le déployer dans différents contextes d'exécution

Découvrir