-
-
Notifications
You must be signed in to change notification settings - Fork 415
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
sistema replicavel administracaopublica #1247 #1297
base: main
Are you sure you want to change the base?
Conversation
boa, @almeidadm! Pode deixar um comentário na issue, por favor? Tenho tentado manter o quadro de tarefas atualizado com as pessoas atuando nas issues, e se vc não comentar lá, o GitHub não permite que eu cadastre que você fez. 😓 Colocando tb na fila de revisão ;) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Boa @almeidadm!
A task pede para a inclusão de Turilândia também.
Pode incluir este município?
Além disso o código está top! 👏 Falta uma coisinha só
) | ||
|
||
def parse(self, response: Response, **kwargs: Any) -> Any: | ||
gazettes = response.css(".diario_item_diario__g9Qfw") |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Este seletor com hash no sufixo pode causar problemas caso o site seja atualizado.
Este hash é adicionado por algum framework frontend que gera html, e dependendo da sua configuração, pode ser modificado sem aviso prévio e frequentemente, resultando em falha do raspador.
Felizmente, podemos remover o sufixo do seletor no Scrapy e usar a sintaxe que faz a busca pelo começo do nome da classe.
Vejo que usou dessa sintaxe na linha 38. Pode usar ela aqui também?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Oi, @firefueled! Obrigado pelo feedback.
Para facilitar a revisão, subi dois novos commits para as alterações propostas, mas antes de aprovarem o PR posso fazer um git squash para melhorar o histórico de commits.
Valeu @almeidadm ! |
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.ma_nova_iorque_arbitrario.csv
ma_nova_iorque_arbitrario.log
ma_nova_iorque_completo.csv
ma_nova_iorque_completo.log
ma_nova_iorque_mais_recente.log
Descrição
O sistema replicável foi feita através da consulta ao domínio administracaopublica.com.br. Neste domínio podemos reutilizar os tokens identificadores do domínio originalmente apresentado na Issue #1247 transparenciadministrativa.com.br. Vale ressaltar que o domínio utilizado é disponibilizado na primeira página dos boletins.
Neste novo domínio a consulta ao endereço do arquivo pdf pode ser feita de maneira direta enquanto percorre o site, além de que as alterações de data podem ser feitas diretamente na url consultada.
O raspador consulta os boletins em um intervalo de 20 em 20 dias, correspondendo ao número máximo de boletins a serem mostrados sem navegação em paginação de resultados. Com isso podemos evitar a interação com elementos de renderização dinâmica no site.