Todos os anos muitas pessoas têm tido problemas para soletrar o meu nome. Quando eu era mais novo, presumi que eles não tinham ouvido o nome “Colin”. Era bastante invulgar onde eu vivia. Nos últimos vinte anos, o nome tornou-se mais popular, mas o problema de ortografia não melhorou. Acontece que hoje em dia há outro problema: uma ortografia alternativa. Será que “Collin” pode realmente ser tão comum como “Colin”? Eu não acreditava nisso.

Por sorte a Administração da Segurança Social mantém o registro dos primeiros nomes por data de nascimento e eles disponibilizam esses dados livremente, então eu poderia responder a essa pergunta.

Como acabou “Collin” experimentou um dramático salto de popularidade por volta da virada do século, momentaneamente eclipsando o (correto, é claro) “Colin”.

O gráfico mostra a relativa popularidade de “Colin” vs. “Collin para pessoas nascidas desde 1940. Em 1940 cerca de 85% dos dois nomes estavam usando um “l” que persistiu no final dos anos 70; a variante de dois “l” decolou rapidamente e brevemente ultrapassou a versão única “l” por volta de 1999 antes de descer desde então.

Mostra a mudança desde 1940 quando mais de 85 por cento dos Colins escreveram o seu nome com um L até ao ano 2000 quando pouco mais de 50 por cento das pessoas o escreveram com dois L após o qual a versão com dois L declinou um pouco

O que significa tudo isto? Eu não tenho idéia. Quaisquer que sejam os motivos, eles serão diferentes para outros pares de ortografias de nomes. Você poderia fazer o mesmo para “Eric” vs. “Erik” ou “Rachel” vs. “Rachael” e muitos outros. Na verdade, vamos fazer esses dois:

Estes são gráficos de área simples. Para este efeito prefiro-o a um gráfico de área empilhada; com apenas duas linhas, onde a soma dos dois valores dos eixos Y sempre equivale a 100%, você acabaria com a mesma linha inferior e a metade superior com uma cor sólida. Assim você tem uma idéia melhor da grande mudança na popularidade das duas grafias.

Um gráfico de área empilhada seria ótimo para mostrar tendências de mais de dois nomes: Por exemplo, você poderia mostrar mudanças no sexo associadas a nomes ao longo do tempo com apenas um nome usando um gráfico como o acima, mas usando uma imagem você poderia empilhar vários nomes e transmitir a mesma informação:

Social Security Baby Name Data

Os dados vêm do site da SSA onde eles tornam os 1000 nomes de bebês mais populares publicamente disponíveis para cada ano de nascimento em seus registros. Antes de 1940 os dados são bastante escassos, já que a administração só foi criada nos anos trinta. Você ainda pode obter os nomes desde 1880, mas há menos, uma vez que apenas as pessoas que se inscreveram nos anos trinta e mais tarde estão incluídas.

Receba os dados nesta página da SSA. Ele vem em um arquivo .zip contendo arquivos separados para cada ano de nascimento, e há uma versão dos dados quebrados pelos estados americanos.

Os dados são parecidos com

Linda,F,99686Mary,F,71688Patricia,F,51278Barbara,F,48791Sandra,F,34774Carol,F,33538Nancy,F,32442

Isto é do topo do arquivo de 1947.

Você vai querer combinar os arquivos de um ano em um e provavelmente adicionar uma coluna “Ano de nascimento” (YOB) para facilitar a utilização para gráficos relacionados ao tempo. Eu escrevi um pequeno script Ruby para fazer o trabalho.

Para alimentar um pacote gráfico com dados você provavelmente precisará massagear os dados um pouco mais: Você precisa transformar as linhas com um único nome em linhas com colunas para todos os pontos de dados que você quer graficar. Estes podem estar em um arquivo ou um arquivo por linha no gráfico (Gnuplot vamos trabalhar dessa forma, carregando vários arquivos em um gráfico). Você pode fazer isso com Ruby ou Python. Eu fi-lo com SQL e a ferramenta “Q Text as-Data”, depois alimentei o resultado para Gnuplot.

Deixe uma resposta

O seu endereço de email não será publicado.