-
Notifications
You must be signed in to change notification settings - Fork 14
Identificar palavras-chaves importantes do Diário Oficial #164
Comments
Opa! Posso pegar essa? |
@guilhermelowa pode sim! A análise pode ser publicada no repo de análises mesmo, tá? |
@anapaulagomes uma curiosidade, vocês já chegaram a definir o que seriam expressões importantes? existiria alguma referência para identificar isso? |
Não cheguei a conversar com Ana sobre isso, mas acho que vale dar uma investigada, por tema (educação, saúde, turismo), com TF-IDF, LDA e ver o que aparece. Pensei em ler alguns DOs pra tentar identificar alguma coisa manualmente e fazer isso. |
Olá, @gabicavalcante! Bom te ver por aqui. Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente. Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.
As palavras-chaves que seriam importantes e relacionadas a esse tema seriam: nomear e exonerar. O que acha? |
@anapaulagomes desculpa a demora 😞 Eu testei fazer algumas análises nos documentos, usando o TF – IDF, mas acabei encontrando muitos ruídos mesmo. Palavras como
Acho que entendi melhor, no caso a gente teria um conjunto de assuntos de interesse já definidos, e tentaríamos encontrar esses assuntos nos documentos, certo? |
Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado? Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá. Recentemente começamos uma parceria para extrair informações de nomeações e exonerações no DO, utilizando labeling para ter um ponto de partida. Assim que tiver qualquer avanço eu compartilho com vocês mas ainda estamos bem no início. Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também. você tem ideias de caminhos pra isso @gabicavalcante? |
achei uma ideia ótima :D vou só organizar um pouco o notebook antes de subir. vcs tem algum lugar específico para postrar análises?
Eu vou tentar rodar novamente o que fiz com um conjunto de stop words maior 🤔 Eu nunca cheguei a trabalhar com algo muito complexo para achar "assuntos" em textos, a forma como fiz foi já tendo um conjunto de palavras e sinônimos definidos. Daí passávamos para um modelo e ele dava a taxa de confiabilidade daquele texto ter aquele assunto.
seria uma boa :)) |
Aqui o repo, @gabicavalcante: https://github.com/DadosAbertosDeFeira/analises. No fds vou estar no sprint de análise de dados para cidades da Python Brasil. Me avisa se quiser trocar uma ideia sobre isso. :) |
Queremos criar threads pelo nosso bot informando sobre palavras-chaves encontradas no conteúdo de um diário. Mas precisamos identificar quais são as palavras ou expressões mais importantes. Atualmente temos um conjunto de palavras. Porém são poucas e existe um potencial grande em outras expressões.
Exemplo com palavras-chave e palavras-chave relacionadas:
Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.
O conteúdo dos diários pode ser visto em nosso dataset do diário oficial no Kaggle.
The text was updated successfully, but these errors were encountered: