Thesaurus Linguae Graecae

 #Fontes Primárias  #TLG

O TLG é um projeto da Universidade da California e um serviço por assinatura online que fornece acesso à maior parte dos textos gregos antigos que sobreviveram. Parte do corpus de textos na base de dados pode ser livremente acessado criando um login, mas acesso ao corpus completo sai por US$140/ano por pessoa. No hemisfério norte, a maior parte das universidades com programas de clássicos mantém uma assinatura institucional que pode ser livremente utilizada pelos alunos.

Uma versão desatualizada do banco de dados circula há anos na internet e no meio acadêmico. Essa versão é a de 1999, época em que a distribuição ainda acontecia por CD-ROM. Nela, o banco de dados é composto por milhares de arquivos de texto plano1 em um formato conhecido como betacode2. O famoso software Diogenes foi desenvolvido para possibilitar a visualização desse banco de dados em formato unicode e a navegação em um ambiente integrado ao dicionário Liddell Scott.

O arquivo com o texto em betacode pode facilmente ser convertido para unicode usando o próprio Diogenes, ou com o betacode Converter. Essa última opção gera um resultado superior, mas não pode ser utilizada com mais de um arquivo por vez. Para maiores informações, veja o artigo extraindo textos do TLG.

Sistema de identificação

O TLG possui um sistema de identificação universal dos autores e obras. Autores tem um código de 4 dígitos3 e as obras um código de 3 dígitos.

Autor Cód. Obra Cód.
Apollonius Rhodius 0001 Argonautica 001
Apollonius Rhodius 0001 Fragmenta 002
Apollonius Rhodius 0001 Epigrammata 003
Theognis 0002 Elegiae 001
Theognis 0002 Epigrammata 004
Thucydides 0003 Histories 001
Thucydides 0003 Epigramma 002
Ver a lista completa

Se Aristóteles é o autor 0086 e a Physica é a obra 031, então, no sistema de referência do TLG, o identificador universal da Physica de Aristóteles é 0086.031. Esse código é utilizado pelos URLs do site do TLG4 e do Diogenes5, no Perseus Catalog e nas referências utilizando a arquitetura CITE.6

Ferramentas especiais

O TLG online oferece algumas ferramentas especiais para análise dos textos. São várias ferramentas com diversas configurações possíveis, de modo que não seria possível fazer aqui um relatório de todas elas. Eis algumas particularmente interessantes:

  • Em cada página de texto, a plataforma automaticamente oferece sugestões de outros textos do corpus que contém frases semelhantes. A análise pode ser feita a partir dos lemmas, ignorando a ordem e desconsiderando as palavras mais comuns, ou considerando a forma das palavras declinadas.

  • A mesma análise pode ser feita em duas ou três obras específicas gerando um relatório de todas as passagens semelhantes com base nos critérios escolhidos (e.g. distância possível entre os termos). São os chamados N-GRAMS.
  • Há diversas opções de gráficos para a visualização de dados relativos à ocorrências de um determinado lemma, e.g. ocorrências por século, por região, por autor, etc.

Mais informações podem ser encontradas aqui

Limitações do TLG

Uma das principais limitações do TLG é a ausência do aparato crítico que acompanha os textos. Essa limitação provavelmente7 se deve ao fato do aparato ser protegido por leis de direitos autorais e pertencer, portanto, à editora. A questão da aplicabilidade da lei de direitos autorais com relação a um texto antigo é complexa e controversa. A prática corrente, ao que tudo indica, é considerar que o texto não está protegido, por ser de um autor antigo, mas o aparato sim, por ser fruto do trabalho de um editor vivo ou falecido no passado recente (>100 anos). Para ter acesso ao aparato, não há outra opção que não a aquisição da edição impressa ou do download de um arquivo em PDF.

Se você leu com atenção as seções acima, deve ter percebido que uma outra limitação importante para aqueles que usam o banco de dados offline ou a versão gratuita online é o tamanho do corpus.

Para ficar em um único exemplo sobre a importância disso: quem efetua uma busca pela República de Platão, encontra a edição de John Burnet de 19028. Na versão completa, a versão de Burnet sequer aparece nos resultados. A edição de referência disponível é a do S. R. Slings de 20039. Ou seja, versão recente fica para os assinantes; o resto do mundo precisa contentar-se com a de 118 anos atrás.

Felizmente, esse estado de coisas está mudando e já está em desenvolvimento um projeto mais democrático e aberto chamado First Thousand Years of Greek and Latin.


  1. São arquivos sem formatação (como acontece quando usamos rich text formating) que usam a extensão .txt.↩︎

  2. Esse formato foi desenvolvido por David Packard (filho do engenheiro Packard que fundou a Hewlett-Packard, a.k.a. HP.) para grafar o grego politônico usando caracteres ASCII.↩︎

  3. Se você entrar na pasta de textos do banco de dados do TLG, perceberá que os arquivos estão numerados de acordo com o código do respectivo autor.↩︎

  4. Links do TLG tem a seguinte estrutura:
    http://stephanus.tlg.uci.edu/Iris/Cite?AUTOR:OBRA:0”.
    Logo, para a Physica {0086.031} teríamos:
    http://stephanus.tlg.uci.edu/Iris/Cite?0086:031:0”.↩︎

  5. O Diogenes na verdade funciona como um servidor e como um navegador. Faça um experimento, abra o Diogenes e depois vá até seu browser (e.g. Safari, Firefox, Chrome, etc.) e acesse http://localhost:8888/Diogenes.cgi.↩︎

  6. A arquitetura CITE foi desenvolvida para resolver um problema antigo da internet: links quebrados. Basta abrir uma página de alguns anos atrás para perder qualquer esperança de encontrar links funcionando. Essa arquitetura pretende estabelecer um padrão na referência a textos antigos de modo a preservar a ligação e mantê-la sempre funcionando. O exemplo que demos acima da ilustra isso: qualquer link com o código 0086.031 deve apontar para a Physica de Aristóteles, não importa onde o texto esteja hospedado, basta ter um sistema capaz de processar essa informação; i.e. um sistema compatível com a arquitetura CITE.↩︎

  7. A prioridade do projeto claramente não é essa, mas sim expandir o corpus para incluir textos de outras fases da literatura grega (e.g. bizantina/medieval).↩︎

  8. Respublica {0059.030} Platonis opera, vol. 4. Ed.: John Burnet. Oxford: Clarendon Press, 1902↩︎

  9. Respublica {0059.042} Platonis Respublicam. Ed.: S. R. Slings. Oxford: Uni Press, 2003↩︎