Abstract
Acesso irrestrito e monitorável a leis e regulamentações é pressuposto essencial da democracia. Isso permite, por exemplo, a detecção de ilícitos e o monitoramento de fraudes em ações públicas (e.g., licitações). Contudo, cada ente federado segue seus próprios critérios de padronização de modelos e formato na disponibilização dessas informações, por exemplo, nos diários oficiais municipais, estaduais e da União. Nesse contexto, nosso objetivo é minimizar o esforço para lidar com a extração textual desses dados ao propor uma heurística orientada à estrutura para segmentar os trechos de documentos públicos. Posteriormente, classificamos semanticamente os trechos extraídos com uma estratégia de aprendizado ativo que minimiza o esforço manual de rotulação. Como resultado desses esforços, desenvolvemos um protótipo de anotação integrado ao processo de classificação, obtendo uma acurácia de 100% na extração e de 85% na classificação com muito pouco esforço de rotulação.
Publisher
Sociedade Brasileira de Computação - SBC
Cited by
2 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献