sistema replicavel administracaopublica #1247 #1297

almeidadm · 2024-10-04T21:25:53Z

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

O layout não se parece com nenhum caso da lista de layouts padrão
É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
Explicitar o atributo de classe end_date não se fez necessário.
Não utilizo custom_settings em meu raspador.

Testes

Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

ma_nova_iorque_arbitrario.csv
ma_nova_iorque_arbitrario.log
ma_nova_iorque_completo.csv
ma_nova_iorque_completo.log
ma_nova_iorque_mais_recente.log

Descrição

O sistema replicável foi feita através da consulta ao domínio administracaopublica.com.br. Neste domínio podemos reutilizar os tokens identificadores do domínio originalmente apresentado na Issue #1247 transparenciadministrativa.com.br. Vale ressaltar que o domínio utilizado é disponibilizado na primeira página dos boletins.

Neste novo domínio a consulta ao endereço do arquivo pdf pode ser feita de maneira direta enquanto percorre o site, além de que as alterações de data podem ser feitas diretamente na url consultada.

O raspador consulta os boletins em um intervalo de 20 em 20 dias, correspondendo ao número máximo de boletins a serem mostrados sem navegação em paginação de resultados. Com isso podemos evitar a interação com elementos de renderização dinâmica no site.

trevineju · 2024-10-04T21:34:52Z

boa, @almeidadm! Pode deixar um comentário na issue, por favor? Tenho tentado manter o quadro de tarefas atualizado com as pessoas atuando nas issues, e se vc não comentar lá, o GitHub não permite que eu cadastre que você fez. 😓

Colocando tb na fila de revisão ;)

firefueled

Boa @almeidadm!

A task pede para a inclusão de Turilândia também.
Pode incluir este município?

Além disso o código está top! 👏 Falta uma coisinha só

firefueled · 2024-12-05T19:48:24Z

data_collection/gazette/spiders/base/administracaopublica.py

+            )
+
+    def parse(self, response: Response, **kwargs: Any) -> Any:
+        gazettes = response.css(".diario_item_diario__g9Qfw")


Este seletor com hash no sufixo pode causar problemas caso o site seja atualizado.
Este hash é adicionado por algum framework frontend que gera html, e dependendo da sua configuração, pode ser modificado sem aviso prévio e frequentemente, resultando em falha do raspador.

Felizmente, podemos remover o sufixo do seletor no Scrapy e usar a sintaxe que faz a busca pelo começo do nome da classe.
Vejo que usou dessa sintaxe na linha 38. Pode usar ela aqui também?

Oi, @firefueled! Obrigado pelo feedback.

Para facilitar a revisão, subi dois novos commits para as alterações propostas, mas antes de aprovarem o PR posso fazer um git squash para melhorar o histórico de commits.

firefueled · 2024-12-09T18:00:02Z

Valeu @almeidadm !
Agora só ficaram faltando os arquivos csv e log referentes a peritoro e turilândia.
Desculpe por nao alertar para isso no meu último comentário :)

sistema replicavel administracaopublica okfn-brasil#1247

a40a109

trevineju linked an issue Oct 4, 2024 that may be closed by this pull request

[Novo spider base]: transparenciaadministrativa #1247

Open

1 task

trevineju added the hacktoberfest-accepted Pull Requests aprovados na Hacktoberfest label Oct 4, 2024

almeidadm mentioned this pull request Oct 7, 2024

[Novo spider base]: transparenciaadministrativa #1247

Open

1 task

firefueled suggested changes Dec 5, 2024

View reviewed changes

almeidadm added 2 commits December 9, 2024 10:28

nova spider ma_turilandia

f19d579

correcao sufixo em seletor administracaopublica

ecbc6ee

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

sistema replicavel administracaopublica #1247 #1297

sistema replicavel administracaopublica #1247 #1297

almeidadm commented Oct 4, 2024 •

edited

Loading

trevineju commented Oct 4, 2024

firefueled left a comment •

edited

Loading

firefueled Dec 5, 2024

almeidadm Dec 9, 2024

firefueled commented Dec 9, 2024

sistema replicavel administracaopublica #1247 #1297

Are you sure you want to change the base?

sistema replicavel administracaopublica #1247 #1297

Conversation

almeidadm commented Oct 4, 2024 • edited Loading

Layout do site publicador de diários oficiais

Código da(s) spider(s)

Testes

Verificações

Descrição

trevineju commented Oct 4, 2024

firefueled left a comment • edited Loading

Choose a reason for hiding this comment

firefueled Dec 5, 2024

Choose a reason for hiding this comment

almeidadm Dec 9, 2024

Choose a reason for hiding this comment

firefueled commented Dec 9, 2024

almeidadm commented Oct 4, 2024 •

edited

Loading

firefueled left a comment •

edited

Loading