Siga o Blog do Oracy

sábado, 1 de janeiro de 2011

Digitalização de livros revela “genoma” da cultura

Estudo analisou conteúdo de mais de 5 milhões de livros e servirá de banco de dados para compreensão de fenômenos de comportamento

O artista Marc Chagall e seu vitral no prédio das Nações Unidas: estudo mostrou claramente a censura a seu trabalho na Alemanha nazista
Um estudo da Universidade de Harvard digitalizou 5.195.769 livros - aproximadamente 4% de todos os livros publicados até agora - para criar um mosaico de como a linguagem mudou ao longo dos últimos dois séculos. Entre as constatações: de que Deus não está morto, mas já esteve mais em voga; Freud é muito mais influente que Darwin, Galileu ou Einstein; e que as celebridades estão ficando cada vez mais jovens e efêmeras.
“Conseguimos uma vasta base de dados. Sabíamos que as palavras entravam e saíam de uso, agora isto pode ser comprovado e quantificado, agora teremos um grande trabalho pela frente para analisar esta quantidade imensa de dados”, disse Jean Baptiste Michel do departamento de psicologia da Universidade de Harvard e autor do estudo que levou quatro anos para ser concluído, e que está publicado na edição de hoje do periódico científico Science.
A equipe, que incluiu pesquisadores de Harvard, Google, Encyclopaedia Britannica, e American Heritage Dictionary, apelidou o estudo de "culturomics", fazendo um paralelo ao genoma – traduzindo para o português, seria algo como “culturoma”. O conjunto de dados, que está disponível para download em www.culturomics.org, tem cerca de 72% de texto em inglês, com quantidades menores em francês, espanhol, alemão, chinês, russo e hebraico.
O estudo começou quando Michel e seu colega Erez Lieberman Aiden, também do programa de Dinâmica Evolutiva da Universidade de Harvard, estudavam quando verbos irregulares em inglês passavam a ser regulares. Para isto, descobriram uma ferramenta importante e fizeram uma parceria com o Google Books. O passo seguinte foi analisar a evolução das palavras.

Gráfico em forma de nuvem mostra palavras mais frequentes do estudo do "genoma cultural"
Pizza, só a partir de 1960
“Agora temos mais dúvidas do que respostas. Temos um longo trabalho que será analisar o motivo que fez com que estas palavras se tornassem mais comuns ou menos comuns”, disse Michel dando o exemplo de “pizza”, que só começou a aparecer na literatura em inglês a partir da década de 1960.
“Primeiro pensamos que poderia ser por causa da imigração italiana nos Estados Unidos, mas depois nos demos conta de que a imigração ocorreu muito antes dos anos 1960, então acreditamos que isto esteja relacionado com a guerra, quando os americanos foram para a Itália e aprenderam o quanto a comida italiana é boa. Isto teve reflexo nos livros”, disse Michel ao iG.
A frequência das palavras vai mudando mesmo com o passar do tempo. A começar pelo número de vocabulário. Nos anos 1800 eram 60 milhões de palavras diferentes por ano; em 1900, 1.4 bilhões e em 2000 o número saltou para 8 bilhões. “Existem várias hipóteses, mas acreditamos que este aumento se deve ao avanço da ciência e da medicina que incrementou o vocabulário”, disse.
Cerca de 8.500 novas palavras surgem no inglês, anualmente, impulsionando um crescimento de 70% do léxico entre 1950 e 2000. Mas o estudo constatou que muitas dessas palavras não podem ser encontradas em dicionários.
Celebridades e censurados
O estudo também constatou que a fama vem cada vez mais cedo, de forma mais intensa e efêmera. Celebridades nascidas em 1950 tendiam a alcançar a fama com idade média de 29 anos, contra 43 anos das nascidas em 1800. A análise de livros mostrou ainda que os atores atingiram a fama mais cedo (por volta dos 30 anos) do que os escritores mais famosos (cerca de 40 anos de idade) e políticos (após os 50 anos). Mas os políticos acabam muito mais famosos, e por um período mais longo, que os atores mais conhecidos.
Outro ponto intrigante é o que se refere às figuras censuradas na história. O estudo analisou o caso de Marc Chagall: o pintor judeu foi mencionado apenas uma vez nos livros alemães digitalizados que foram publicados entre 1936 e 1944. Por outro lado, neste mesmo período, sua menção cresceu cerca de cinco vezes nos livros em inglês do mesmo período. Fenômenos parecidos aconteceram com o nome de Leon Trotski, nos livros russos e o termo “Praça da Paz Celestial”, nos chineses.
De acordo com Michel, a nova ferramenta poderá servir como uma comprovação para inúmeras hipóteses sobre questões históricas. “Os dados não mentem, são informações quantitativas, podemos usar isto como uma espécie de fóssil que pode evidenciar fenômenos das ciências sociais e humanidades”, disse.
Via UltimoSegundo

Nenhum comentário: