Skip to content
This repository has been archived by the owner on Jun 29, 2024. It is now read-only.

Identificar palavras-chaves importantes do Diário Oficial #164

Open
anapaulagomes opened this issue Jun 4, 2021 · 10 comments
Open

Identificar palavras-chaves importantes do Diário Oficial #164

anapaulagomes opened this issue Jun 4, 2021 · 10 comments
Labels

Comments

@anapaulagomes
Copy link
Contributor

anapaulagomes commented Jun 4, 2021

Queremos criar threads pelo nosso bot informando sobre palavras-chaves encontradas no conteúdo de um diário. Mas precisamos identificar quais são as palavras ou expressões mais importantes. Atualmente temos um conjunto de palavras. Porém são poucas e existe um potencial grande em outras expressões.

Exemplo com palavras-chave e palavras-chave relacionadas:

  • pandemia: vacina, covid-19
  • educação: SECRETARIA MUNICIPAL DE EDUCAÇÃO, calendário escolar, merenda
  • etc

Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.

O conteúdo dos diários pode ser visto em nosso dataset do diário oficial no Kaggle.

@anapaulagomes
Copy link
Contributor Author

@guilhermelowa
Copy link
Collaborator

Opa! Posso pegar essa?

@anapaulagomes
Copy link
Contributor Author

@guilhermelowa pode sim! A análise pode ser publicada no repo de análises mesmo, tá?

@gabicavalcante
Copy link

Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.

@anapaulagomes uma curiosidade, vocês já chegaram a definir o que seriam expressões importantes? existiria alguma referência para identificar isso?

@guilhermelowa
Copy link
Collaborator

Não cheguei a conversar com Ana sobre isso, mas acho que vale dar uma investigada, por tema (educação, saúde, turismo), com TF-IDF, LDA e ver o que aparece. Pensei em ler alguns DOs pra tentar identificar alguma coisa manualmente e fazer isso.

@anapaulagomes
Copy link
Contributor Author

Olá, @gabicavalcante! Bom te ver por aqui.

Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente.

Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.

EXTRATO DE EXONERAÇÕES E NOMEAÇÕES 
Extrato  dos  Decretos  Individuais  de  Exonerações  e  Nomeações  dos  Cargos  de  Provimento  Temporário  da 
Câmara Municipal de Feira de Santana, de acordo com a Lei nº 4.004/2019. Data: 05 de maio de 2021. 
Nº 443/2021 – Resolve exonerar a Sra. MARIANA RODRIGUES DA COSTA PINTO DE CARVALHO, do cargo de Agente Parlamentar, 
símbolo AGEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do 
dia 05 de maio de 2021.        
Nº 444/2021 – Resolve exonerar a Sra RAFAELA SOUSA GONÇALVES, do cargo de Assistente de Gabinete Parlamentar, símbolo 
ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de 
maio de 2021.        
Nº  445/2021  –  Resolve  nomear  a  Sra  MARIANA  RODRIGUES  DA  COSTA PINTO  DE  CARVALHO,  para  o cargo  de Assistente  de 
Gabinete Parlamentar, símbolo ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com 
vigência, a partir do dia 05 de maio de 2021.        
Nº  446/2021  –  Resolve  nomear  a  Sra  RAFAELA  SOUSA  GONÇALVES,  para  o  cargo  de  Assessor  Especial  Parlamentar,  símbolo 
ASEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de 
maio de 2021 
Nº 447/2021 – Resolve nomear o Sr. ORLANDO DA SILVA DALTRO JUNIOR, para o cargo de Assessor Especial Parlamentar, símbolo 
ASEP, cargo de provimento temporário, lotado no Gabinete do Vereador Luiz Augusto de Jesus,  com vigência, a partir do dia 05 de 
maio de 2021.

As palavras-chaves que seriam importantes e relacionadas a esse tema seriam: nomear e exonerar. O que acha?

@gabicavalcante
Copy link

@anapaulagomes desculpa a demora 😞

Eu testei fazer algumas análises nos documentos, usando o TF – IDF, mas acabei encontrando muitos ruídos mesmo. Palavras como edição, ano, documento acabam deixando o resultado não tão interessante 🤔 eu tentei remover verbos e algumas stop words, mas ainda ficou ruim. Eu até peguei um doc que eu sabia que tinha "covid" sendo citada, mas ela apareceu como algo pouco relevante 😢

Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente.
Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.

Acho que entendi melhor, no caso a gente teria um conjunto de assuntos de interesse já definidos, e tentaríamos encontrar esses assuntos nos documentos, certo?

@anapaulagomes
Copy link
Contributor Author

Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?

Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.

Recentemente começamos uma parceria para extrair informações de nomeações e exonerações no DO, utilizando labeling para ter um ponto de partida. Assim que tiver qualquer avanço eu compartilho com vocês mas ainda estamos bem no início.

Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.

você tem ideias de caminhos pra isso @gabicavalcante?

@gabicavalcante
Copy link

Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?

achei uma ideia ótima :D vou só organizar um pouco o notebook antes de subir. vcs tem algum lugar específico para postrar análises?

Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.

Eu vou tentar rodar novamente o que fiz com um conjunto de stop words maior 🤔 Eu nunca cheguei a trabalhar com algo muito complexo para achar "assuntos" em textos, a forma como fiz foi já tendo um conjunto de palavras e sinônimos definidos. Daí passávamos para um modelo e ele dava a taxa de confiabilidade daquele texto ter aquele assunto.

Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.

seria uma boa :))

@anapaulagomes
Copy link
Contributor Author

Aqui o repo, @gabicavalcante: https://github.com/DadosAbertosDeFeira/analises.

No fds vou estar no sprint de análise de dados para cidades da Python Brasil. Me avisa se quiser trocar uma ideia sobre isso. :)

@anapaulagomes anapaulagomes transferred this issue from DadosAbertosDeFeira/diario-de-feira Oct 15, 2021
@anapaulagomes anapaulagomes changed the title Identificar palavras-chaves importantes para adicionar ao tweet Identificar palavras-chaves importantes do Diário Oficial Oct 15, 2021
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
Projects
None yet
Development

No branches or pull requests

3 participants