terça-feira, 12 de agosto de 2008

Como o The Times colocou 200 anos de arquivo online


Como o The Times colocou 200 anos de arquivo online

O site do jornal inglês "The Times" digitalizou 200 anos de seu acervo - de 1785, quando começou a circular, até 1985. O melhor de tudo é que todo o material está online, com exceção do período entre 1º de dezembro de 1978 e 12 de novembro de 1979, quando o jornal não foi publicado. É uma tremenda viagem no tempo, absolutamente viciante. Procure "Brazil" em 1822, por exemplo, e você poderá ler como os ingleses, tão intere$$ados em nosso país, acompanharam nosso processo de "independência" em relação a Portugal.

A verdade é que assunto não falta. O acervo digital já contém cerca de 20 milhões de artigos, num total de 7,8 milhões de documentos únicos e mais de 35 milhões de imagens. Algumas das edições cujos originais em papel estavam danificados, mas que já estão em processo de restauração, ainda serão digitalizadas e incorporadas ao conteúdo online. Nesta fase inicial, a oferta online está sendo gratuita, mas é preciso registrar-se.

Embora o processo de registro no "Times" seja um tanto chato (é preciso fornecer dados como endereço, telefone etc, esperar a confirmação no email e completar mais um questionário), vale a pena adentrar o arquivo.
As páginas são vistas em sua tipografia original, há possibilidade de zoom, e o leitor pode salvar os artigos que forem de seu interesse.


Escanear documentos antigos exigiu muito cuidado
Alguns dos documentos originais são muito velhos, frágeis e valiosos. Foram necessários muito cuidado e experiência para escaneá-los e etiquetá-los, num processo que durou quase seis meses, com recursos técnicos baseados em Londres, Índia e Israel, para coordenar a digitalização e o reforço de qualidade final do processo de OCR.
No que tange ao armazenamento das imagens, os requisitos de espaço eram tão imensos que os ambientes de testes e implementação se tornaram altamente complexos. Mas o desafio foi vencido pela divisão de TI da News International. O site alocou servidores de imagens inteiramente dedicados à publicação online das fotos e bitmaps do arquivo. Além disso, foram usados os mais modernos algoritmos de compressão de imagens. Coisa finíssima.
Boa parte do arquivo online se baseia em registro e restrições de acesso, de modo a garantir os direitos de propriedade intelectual. Foi desenvolvida internamente toda a tecnologia de personalização que permitiu acesso controlado ao acervo. Afinal, cada documento da base de dados exige autenticação individual para determinar se um usuário pode ou não ter acesso a determinado conteúdo.

Nenhum comentário:

Campanhas Digitais para Converse