Données structurées: Utilisation des API

Les données sont présentées sous divers formats. Vous trouverez dans le présent document de l'information, des conseils et des suggestions sur la façon d'utiliser certains des formats présentés dans le Portail de données ouvertes ainsi que la façon de travailler avec des interfaces de programmation d'applications (API).

De manière générale, les données structurées sont des données textuelles présentées dans un format particulier qui facilite leur lisibilité par machine. Certains formats sont plus complexes, par exemple le format binaire utilisé pour les cartes et les fichiers de type SIG. Vous trouverez plusieurs formats différents dans le Portail de données ouvertes. Cette section aborde certains des formats courants et donne quelques conseils sur la façon de les utiliser.

Sur cette page

CSV

Le moyen le plus facile de travailler avec un fichier CSV (Comma-Separated Values) est d'utiliser une application de tableur telle OpenOffice Calc ou Microsoft Excel. Il suffit de démarrer l'application et d'ouvrir le fichier .csv pour lancer l'assistant d'importation CSV.

Parcourir les jeux de données CSV

Codage de caractères

Un aspect important dont il faut tenir compte est le codage de caractères, qui peut avoir une incidence sur la façon dont les données, principalement le texte, sont analysées durant l'importation. Cette opération est particulièrement importante dans le cas des langues, tel le français, qui utilisent un jeu de caractères étendu.

OpenOffice permet de choisir facilement le codage à utiliser. Les figures 1 et 2 montrent un exemple de jeu de données CSV téléchargé qui a été codé avec un format différent du format par défaut UTF–8 d'OpenOffice (illustration avec NeoOffice).

Figure 1 : Exemple d'assistant d'importation CSV qui affiche un codage erroné
Figure 1
Description accessible de la Figure 1

Saisie d'écran montrant l'assistant d'importation de fichier CSV dans NeoOffice. Le fichier importé contient des caractères du jeu de caractères étendu français. L'utilisateur a choisi le jeu de caractères UTF-8 pour coder les caractères. La zone de prévisualisation affiche les caractères incorrectement; le format de codage utilisé n'est pas le format approprié pour ce fichier.

Figure 2 : Fichier CSV importé avec le mauvais format de codage de caractères
Figure 2
Description accessible de la Figure 2

Fichier CSV affiché dans l'éditeur du tableur NeoOffice. Le fichier contient des caractères du jeu de caractères étendu français qui n'ont pas été importés de manière appropriée en raison du mauvais format de codage utilisé.

Un autre format de codage de caractères à 8 bits utilisé au Canada est le format ISO–8859–1. Dans ce scénario, le choix de ce format permet de résoudre le problème du jeu de caractères étendu, tel qu'illustré dans les figures 3 et 4.

Figure 3 : Assistant d'importation CSV montrant le codage approprié de caractères
Figure 3
Description accessible de la Figure 3

Saisie d'écran montrant l'assistant d'importation de fichier CSV dans NeoOffice. Le fichier importé contient des caractères du jeu de caractères étendu français. L'utilisateur a choisi le bon format de codage ISO 8859-1 et la zone de prévisualisation affiche les caractères appropriés.

Figure 4 : Fichier CSV importé dans NeoOffice avec le codage de caractères approprié
Figure 4
Description accessible de la Figure 4

Fichier CSV affiché dans l'éditeur du tableur NeoOffice. Le fichier contient des caractères du jeu de caractères étendu français, qui ont été importés de manière appropriée avec le bon format de codage.

Vous remarquerez peut-être des problèmes de codage de caractères lorsque vous ouvrirez un fichier CSV dans Microsoft Excel, tel qu'illustré à la figure 5. Dans cet exemple, nous utilisons Microsoft Excel de la suite Microsoft Office Professional Plus 2010.

Figure 5 : Fichier ouvert dans Excel avec un format de codage de fichier erroné
Figure 5
Description accessible de la Figure 5

Saisie d'écran d'un fichier CSV ouvert dans Excel montrant des caractères français décodés incorrectement.

Il est possible de sélectionner manuellement un format de codage de caractères en utilisant l'assistant d'importation de données. Vous devez d'abord lancer le nouveau chiffrier Excel. Cliquez sur l'onglet Données puis sur À partir du texte pour lancer l'assistant d'importation (figure 6).

La première étape consiste à sélectionner dans l'assistant le codage de caractères approprié. Dans cet exemple, nous choisissons le format de codage UTF-8 situé au bas de la liste. Une fois que vous avez sélectionné le format, vous pouvez afficher le résultat du décodage des caractères dans le panneau de prévisualisation des données de l'assistant.

Figure 6 : Sélection du format de codage UTF-8 dans l'assistant d'importation de texte
Figure 6
Description accessible de la Figure 6

Saisie d'écran montrant l'étape 1 de 3 de l'assistant d'importation de texte dans Microsoft Excel. La liste des fichiers originaux est ouverte et indique la sélection du format Unicode UTF-8.

L'étape suivante (figure 7) permet de préciser le ou les délimiteurs appropriés utilisés dans le fichier de données. Encore une fois, le panneau de prévisualisation des données vous permet d'afficher vos données et de vérifier si elles ont été analysées correctement.

Figure 7 : Sélection des délimiteurs dans l'assistant d'importation de texte
Figure 7
Description accessible de la Figure 7

Saisie d'écran montrant l'étape 2 de 3 de l'assistant d'importation de texte dans Microsoft Excel. La case Virgule est cochée et le panneau de prévisualisation des données affiche les données séparées en colonnes.

Au choix, vous pouvez préciser les types de données pour chacune des colonnes (figure 8). Dans la plupart des cas, il suffit de cliquer sur Terminer.

Figure 8 : Sélection des formats de données dans l'assistant d'importation de texte
Figure 8
Description accessible de la Figure 8

Saisie d'écran montrant l'étape 3 de 3 de l'assistant d'importation de texte dans Excel. Cette étape comprend des paramètres qui permettent à l'utilisateur de définir les formats de données de chacune des colonnes. Dans cet exemple, nous utilisons les valeurs par défaut.

La figure 9 montre que les caractères ont été décodés de manière appropriée après que nous avons utilisé l'assistant d'importation de texte dans Excel.

Figure 9 : Données importées dans Excel avec le codage de caractères approprié
Figure 9
Description accessible de la Figure 9

Saisie d'écran montrant un fichier CSV importé dans Excel avec l'assistant d'importation de texte. Les caractères français s'affichent correctement après l'application du format de codage approprié.

Indicateur d'ordre des octets (Byte Order Mark - BOM)

Il peut vous arriver de découvrir un octet spécial particulièrement intéressant au début d'un fichier. Cet octet est l'octet BOM (Byte Order Mark). Il sert à indiquer la taille du codage de caractères utilisé dans un fichier codé au format UTF. Par exemple, le format UTF–16 produit la séquence U+FEFF ou þÿ (figure 5) dans un éditeur de texte capable d'afficher cette valeur. De manière générale, vous n'avez pas à vous soucier de la présence de cet octet dans l'application que vous utilisez. Toutefois, il peut s'avérer utile pour vous aider à choisir le bon codage de fichier durant une importation lorsque vous avez des problèmes.

Figure 10 : Octet « Byte Order Mark » dans un fichier de données
Figure 10
Description accessible de la Figure 10

Octet « Byte Order Mark » affiché dans un éditeur de texte.

JSON

Le format JavaScript Object Notation (JSON) est un format structuré de données ouvertes allégé et très bien adapté aux applications mobiles. Il est utilisé soit en mode natif, soit sous forme de bibliothèque offerte dans la plupart des langages de développement d'applications mobiles ou Web. Pour obtenir de l'information détaillée sur ce format, visitez le site Web officiel de JSON (anglais seulement). Voici un exemple simple de codage de données avec ce format :

"metadata":{
  "request":{
    "dateCreated":"2014-01-01T00:00:00+00:00",
    "name": "Exemple de données JSON" },
  "items":[
    { "name":"Item 1", "colour":"rouge" },
    { "name":"Item 2", "colour":"bleu" }
  ]
}

Nous avons de nombreux exemples intéressants d'utilisation de données JSON et d'API RESTful dans différents langages de programmation.

Parcourir les jeux de données JSON

XML

Le format XML (eXtensible Markup Language) définit un ensemble de règles de codage de documents sous une forme lisible par machine. Les définitions peuvent être consultées à partir du site XML 1.0 Specification (anglais seulement)..

Parcourir les jeux de données XML

Les données sont présentées sous divers formats. Vous trouverez dans le présent document de l'information, des conseils et des suggestions sur la façon d'utiliser certains des formats présentés dans le Portail de données ouvertes ainsi que la façon de travailler avec des interfaces de programmation d'applications (API).

De manière générale, les données structurées sont des données textuelles présentées dans un format particulier qui facilite leur lisibilité par machine. Certains formats sont plus complexes, par exemple le format binaire utilisé pour les cartes et les fichiers de type SIG. Vous trouverez plusieurs formats différents dans le Portail de données ouvertes. Cette section aborde certains des formats courants et donne quelques conseils sur la façon de les utiliser.

Sur cette page

CSV

Le moyen le plus facile de travailler avec un fichier CSV (Comma-Separated Values) est d'utiliser une application de tableur telle OpenOffice Calc ou Microsoft Excel. Il suffit de démarrer l'application et d'ouvrir le fichier .csv pour lancer l'assistant d'importation CSV.

Parcourir les jeux de données CSV

Codage de caractères

Un aspect important dont il faut tenir compte est le codage de caractères, qui peut avoir une incidence sur la façon dont les données, principalement le texte, sont analysées durant l'importation. Cette opération est particulièrement importante dans le cas des langues, tel le français, qui utilisent un jeu de caractères étendu.

OpenOffice permet de choisir facilement le codage à utiliser. Les figures 1 et 2 montrent un exemple de jeu de données CSV téléchargé qui a été codé avec un format différent du format par défaut UTF–8 d'OpenOffice (illustration avec NeoOffice).

Figure 1 : Exemple d'assistant d'importation CSV qui affiche un codage erroné
Figure 1
Description accessible de la Figure 1

Saisie d'écran montrant l'assistant d'importation de fichier CSV dans NeoOffice. Le fichier importé contient des caractères du jeu de caractères étendu français. L'utilisateur a choisi le jeu de caractères UTF-8 pour coder les caractères. La zone de prévisualisation affiche les caractères incorrectement; le format de codage utilisé n'est pas le format approprié pour ce fichier.

Figure 2 : Fichier CSV importé avec le mauvais format de codage de caractères
Figure 2
Description accessible de la Figure 2

Fichier CSV affiché dans l'éditeur du tableur NeoOffice. Le fichier contient des caractères du jeu de caractères étendu français qui n'ont pas été importés de manière appropriée en raison du mauvais format de codage utilisé.

Un autre format de codage de caractères à 8 bits utilisé au Canada est le format ISO–8859–1. Dans ce scénario, le choix de ce format permet de résoudre le problème du jeu de caractères étendu, tel qu'illustré dans les figures 3 et 4.

Figure 3 : Assistant d'importation CSV montrant le codage approprié de caractères
Figure 3
Description accessible de la Figure 3

Saisie d'écran montrant l'assistant d'importation de fichier CSV dans NeoOffice. Le fichier importé contient des caractères du jeu de caractères étendu français. L'utilisateur a choisi le bon format de codage ISO 8859-1 et la zone de prévisualisation affiche les caractères appropriés.

Figure 4 : Fichier CSV importé dans NeoOffice avec le codage de caractères approprié
Figure 4
Description accessible de la Figure 4

Fichier CSV affiché dans l'éditeur du tableur NeoOffice. Le fichier contient des caractères du jeu de caractères étendu français, qui ont été importés de manière appropriée avec le bon format de codage.

Vous remarquerez peut-être des problèmes de codage de caractères lorsque vous ouvrirez un fichier CSV dans Microsoft Excel, tel qu'illustré à la figure 5. Dans cet exemple, nous utilisons Microsoft Excel de la suite Microsoft Office Professional Plus 2010.

Figure 5 : Fichier ouvert dans Excel avec un format de codage de fichier erroné
Figure 5
Description accessible de la Figure 5

Saisie d'écran d'un fichier CSV ouvert dans Excel montrant des caractères français décodés incorrectement.

Il est possible de sélectionner manuellement un format de codage de caractères en utilisant l'assistant d'importation de données. Vous devez d'abord lancer le nouveau chiffrier Excel. Cliquez sur l'onglet Données puis sur À partir du texte pour lancer l'assistant d'importation (figure 6).

La première étape consiste à sélectionner dans l'assistant le codage de caractères approprié. Dans cet exemple, nous choisissons le format de codage UTF-8 situé au bas de la liste. Une fois que vous avez sélectionné le format, vous pouvez afficher le résultat du décodage des caractères dans le panneau de prévisualisation des données de l'assistant.

Figure 6 : Sélection du format de codage UTF-8 dans l'assistant d'importation de texte
Figure 6
Description accessible de la Figure 6

Saisie d'écran montrant l'étape 1 de 3 de l'assistant d'importation de texte dans Microsoft Excel. La liste des fichiers originaux est ouverte et indique la sélection du format Unicode UTF-8.

L'étape suivante (figure 7) permet de préciser le ou les délimiteurs appropriés utilisés dans le fichier de données. Encore une fois, le panneau de prévisualisation des données vous permet d'afficher vos données et de vérifier si elles ont été analysées correctement.

Figure 7 : Sélection des délimiteurs dans l'assistant d'importation de texte
Figure 7
Description accessible de la Figure 7

Saisie d'écran montrant l'étape 2 de 3 de l'assistant d'importation de texte dans Microsoft Excel. La case Virgule est cochée et le panneau de prévisualisation des données affiche les données séparées en colonnes.

Au choix, vous pouvez préciser les types de données pour chacune des colonnes (figure 8). Dans la plupart des cas, il suffit de cliquer sur Terminer.

Figure 8 : Sélection des formats de données dans l'assistant d'importation de texte
Figure 8
Description accessible de la Figure 8

Saisie d'écran montrant l'étape 3 de 3 de l'assistant d'importation de texte dans Excel. Cette étape comprend des paramètres qui permettent à l'utilisateur de définir les formats de données de chacune des colonnes. Dans cet exemple, nous utilisons les valeurs par défaut.

La figure 9 montre que les caractères ont été décodés de manière appropriée après que nous avons utilisé l'assistant d'importation de texte dans Excel.

Figure 9 : Données importées dans Excel avec le codage de caractères approprié
Figure 9
Description accessible de la Figure 9

Saisie d'écran montrant un fichier CSV importé dans Excel avec l'assistant d'importation de texte. Les caractères français s'affichent correctement après l'application du format de codage approprié.

Indicateur d'ordre des octets (Byte Order Mark - BOM)

Il peut vous arriver de découvrir un octet spécial particulièrement intéressant au début d'un fichier. Cet octet est l'octet BOM (Byte Order Mark). Il sert à indiquer la taille du codage de caractères utilisé dans un fichier codé au format UTF. Par exemple, le format UTF–16 produit la séquence U+FEFF ou þÿ (figure 5) dans un éditeur de texte capable d'afficher cette valeur. De manière générale, vous n'avez pas à vous soucier de la présence de cet octet dans l'application que vous utilisez. Toutefois, il peut s'avérer utile pour vous aider à choisir le bon codage de fichier durant une importation lorsque vous avez des problèmes.

Figure 10 : Octet « Byte Order Mark » dans un fichier de données
Figure 10
Description accessible de la Figure 10

Octet « Byte Order Mark » affiché dans un éditeur de texte.

JSON

Le format JavaScript Object Notation (JSON) est un format structuré de données ouvertes allégé et très bien adapté aux applications mobiles. Il est utilisé soit en mode natif, soit sous forme de bibliothèque offerte dans la plupart des langages de développement d'applications mobiles ou Web. Pour obtenir de l'information détaillée sur ce format, visitez le site Web officiel de JSON (anglais seulement). Voici un exemple simple de codage de données avec ce format :

"metadata":{
  "request":{
    "dateCreated":"2014-01-01T00:00:00+00:00",
    "name": "Exemple de données JSON" },
  "items":[
    { "name":"Item 1", "colour":"rouge" },
    { "name":"Item 2", "colour":"bleu" }
  ]
}

Nous avons de nombreux exemples intéressants d'utilisation de données JSON et d'API RESTful dans différents langages de programmation.

Parcourir les jeux de données JSON

XML

Le format XML (eXtensible Markup Language) définit un ensemble de règles de codage de documents sous une forme lisible par machine. Les définitions peuvent être consultées à partir du site XML 1.0 Specification (anglais seulement)..

Parcourir les jeux de données XML

Date de modification :