Extraindo referências de artigos acadêmicos ou científicos de arquivo .pdf para .txt

Publicado por Luís Fernando C. Cavalheiro em 26/09/2014

[ Hits: 3.994 ]

Blog: https://github.com/lcavalheiro/

 


Extraindo referências de artigos acadêmicos ou científicos de arquivo .pdf para .txt



Pesquisadores e vagabundos do Viva o Linux, aqui começa mais uma Dica do Dino® para ensiná-los um macete, que só o Dino® e seu cachimbo poderiam apresentar a vocês.

Hoje, vamos aprender o método de "vagabundo" para extrair as referências de um artigo que, porventura, você possua em formato .pdf para formato .txt.

Cenário

Referências em um artigo são aquelas notas que indicam em que obras o autor pesquisou ou embasou seu trabalho. Normalmente, as diferentes revistas possuem seus diferentes padrões. Por exemplo, uma referência seguindo os padrões do "Journal of the American College of Cardiology" teria a seguinte aparência:
1. Bergmark D. Automatic Extraction of Reference Linking Information from OnlineDocuments. Cornell Digit. 2000:1-20. Available at: https://dspace.library.cornell.edu/handle/1813/5809. Acessado setembro 19, 2014.

Por coincidência, essa referência é usada nesta Dica do Dino® como fonte de pesquisa. Então, lá no final, caso eu escrevesse um subtítulo "Referências", essa informação apareceria lá para quem quisesse consultá-la.

Pesquisadores em trabalho de revisão de literatura, como eu, podem às vezes precisar extrair todas as referências de um artigo. Isso pode parecer bobeira, mas existem artigos com mais de cem referências em colunas, e quem lida com .pdf com frequência, sabe que esse formato de arquivo e colunas são repetitivos: Ctrl+v, Ctrl+c.

Graças a esse artigo de Bergmark e um pouco do meu tempo livre, hoje vocês disporão das informações mais ou menos prontas para vocês!

Como fazer

Instale o pacote pstotext. No Slackware está disponível para compilação, em:
Uma vez instalado, rode o comando:

pstotext -output arquivo.txt arquivo.pdf

O pstotext irá realizar a conversão quase que 100% confiável do arquivo .pdf para .txt, supondo que o .pdf não tenha sido gerado como imagem.

Abra o arquivo .txt resultante e divirta-se com as referências em formato .txt diretamente copiáveis para seu artigo!

Conclusão

Não estou com paciência para uma conclusão bonitinha, então, fiquem com "Bob" Dobbs e até a próxima Dica do Dino®!

Outras dicas deste autor

Software Data Cable - Transfira arquivos de aparelho Android para computador via Wireless

Repositórios oficiais do Skype para GNU/Linux

Snownews no Fedora - Instalação e utilização

Corrigindo erro "File in wrong format" durante compilação de pacotes no Slackware 64

usbboot.img - A mídia de instalação mínima do Slackware

Leitura recomendada

Como ocultar a barra de tarefas do GNOME no Ubuntu 14.04

Lançamento da Gentoo Wiki

Lançamento do Projeto PCLinuxOS Brasil!

Kingfisher Quota Manager - Relatórios de impressão do CUPS

IT Manager Duels - Teste seus conhecimentos neste game da Intel

  

Comentários
[1] Comentário enviado por albfneto em 26/09/2014 - 09:20h

Favoritado. o pacote é interessante para mim, sou Pesquisador.
Vc sempre cita o cachimbo, é Cachimbeiro, como eu?

[2] Comentário enviado por lcavalheiro em 26/09/2014 - 09:47h


[1] Comentário enviado por albfneto em 26/09/2014 - 09:20h:

Favoritado. o pacote é interessante para mim, sou Pesquisador.
Vc sempre cita o cachimbo, é Cachimbeiro, como eu?


O pstotext pode separar as referências em colunas, o que demandará esforço manual de ajeitar. Ainda assim, é melhor do que copiar manualmente.

Sim, eu sou cachimbeiro. Tenho um feito em meerchaum e dois em briar, todos churchwarden.

[3] Comentário enviado por albfneto em 26/09/2014 - 11:57h

Eu também. e Meu Pai, Avôs etc... eram Cachimbeiros, na minha família é tradicional.

eu tenho muitos cachimbos, mas em meerschaum , só um. Churchwardens, tenho 3. de Briar.

No total, tenho grande coleção, no momento... 105.

Faz 43 anos que fumo cachimbo.



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts