Au fil des ans, beaucoup de gens ont eu du mal à épeler mon nom. Quand j’étais plus jeune, je supposais qu’ils n’avaient pas entendu le nom « Colin ». C’était assez inhabituel là où je vivais. Au cours des vingt dernières années, le nom est devenu plus populaire, mais les problèmes d’orthographe ne se sont pas améliorés. Il se trouve que de nos jours, il y a un autre problème : une orthographe alternative. Est-ce que « Collin » pouvait vraiment être aussi courant que « Colin » ? Je n’y croyais pas.

Heureusement, l’Administration de la sécurité sociale garde une trace des prénoms par date de naissance et ils rendent ces données librement disponibles, alors j’ai pu répondre à cette question.

Il s’est avéré que « Collin » a connu un bond spectaculaire en popularité au tournant du siècle, éclipsant momentanément le (correct, bien sûr) « Colin ».

Le graphique montre la popularité relative de « Colin » par rapport à « Collin » pour les personnes nées depuis 1940. En 1940, environ 85 % des deux noms utilisaient un seul « l », ce qui a persisté jusqu’à la fin des années 70 ; la variante à deux « l » a décollé rapidement et a brièvement dépassé la version à un seul « l » vers 1999 avant de dériver plus bas depuis.

Montre le changement depuis 1940 où plus de 85 % des Colins épelaient leur nom avec un seul L jusqu'à l'an 2000 où un peu plus de 50 % des gens l'épelaient avec deux L après quoi la version à deux L a quelque peu décliné

Que signifie tout cela ? Je n’en ai aucune idée. Quelles que soient les raisons, elles seront différentes pour d’autres paires d’orthographe de noms. Vous pourriez faire la même chose pour « Eric » vs « Erik » ou « Rachel » vs « Rachael » et bien d’autres. En fait, faisons ces deux-là :

Ce sont de simples diagrammes de zone. Pour cet usage, je le préfère à un diagramme de zone empilé ; avec seulement deux lignes, où la somme des deux valeurs de l’axe des Y est toujours égale à 100%, vous vous retrouveriez juste avec la même ligne inférieure et la moitié supérieure une couleur unie. De cette façon, vous avez une meilleure idée du grand changement de popularité des deux orthographes.

Un diagramme de zone empilé serait formidable pour montrer les tendances de plus de deux noms : Par exemple, vous pourriez montrer le changement du sexe associé aux noms au fil du temps avec un seul nom en utilisant un graphique comme celui ci-dessus, mais en utilisant une image, vous pourriez empiler plusieurs noms et transmettre la même information :

Données sur les noms de bébé de la sécurité sociale

Les données proviennent du site Web de la SSA où ils rendent publiquement disponibles les 1000 noms de bébé les plus populaires pour chaque année de naissance dans leurs dossiers. Avant 1940, les données sont assez rares, car l’administration n’a été mise en place que dans les années trente. Vous pouvez toujours obtenir des noms remontant à 1880 mais ils sont moins nombreux puisque seules les personnes qui se sont inscrites dans les années trente et plus tard sont incluses.

Obtenez les données sur cette page du SSA. Il vient dans une archive .zip contenant des fichiers séparés pour chaque année de naissance, et il y a une version des données ventilées par les États américains.

Les données ressemblent à

Linda,F,99686Mary,F,71688Patricia,F,51278Barbara,F,48791Sandra,F,34774Carol,F,33538Nancy,F,32442

C’est à partir du haut du fichier de 1947.

Vous voudrez combiner les fichiers d’une seule année en un seul et probablement ajouter une colonne « Année de naissance » (YOB) pour faciliter son utilisation pour les graphiques liés au temps. J’ai écrit un petit script Ruby pour faire le travail.

Pour alimenter les données à un paquet de graphiques, vous aurez probablement besoin de masser les données un peu plus : Vous devez transformer les lignes avec un seul nom en lignes avec des colonnes pour tous les points de données que vous voulez représenter graphiquement. Ces données peuvent se trouver dans un seul fichier ou dans un fichier par ligne du graphique (Gnuplot vous permet de travailler de cette manière, en chargeant plusieurs fichiers dans un seul graphique). Je l’ai fait avec SQL et l’outil « Q Text-as-Data », puis j’ai introduit le résultat dans Gnuplot.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.