DIFUSÃO DO CONHECIMENTO DE MODELAGEM E ANÁLISE DE DADOS: UMA ABORDAGEM COM LINGUAGENS DE COMPUTAÇÃO #218
- Coordenador:
- ALOISIO MACHADO DA SILVA FILHO
- Data Cadastro:
- 12-03-2024 10:40:19
- Vice Coordenador:
- -
- Modalidade:
- Híbrido
- Cadastrante:
- Aloisio Machado da Silva Filho
- Tipo de Atividade:
- Programa
- Pró-Reitoria:
- PROEX
- Período de Realização:
- Indeterminado
- Interinstitucional:
- Não
- Unidade(s):
- Departamento de Ciências Exatas,
Resolução Consepe
050/2024
Processo SEI Bahia
07134802024000680523
Situação
Ativo
Equipe
13
Atualmente com o advento da computação científica e o acesso a dados de domínio público, principalmente nos últimos anos, a modelagem e análise de dados em diversas áreas do conhecimento tem crescido. Diante deste cenário torna-se necessário a apropriação de conceitos e métodos científicos que viabilizem a compreensão desses dados em diversas áreas do conhecimento como: Economia, Finanças, Epidemiologia, Engenharia, Meteorologia, Saúde Coletiva, Climatologia, Geofísica, Biologia, Química etc. Nesse aspecto a Modelagem e análise de dados tem exercido, enquanto área do conhecimento, um aspecto relevante nas ciências que demandam de profissionais com essa expertise. Tendo como alicerce os pontos aqui mencionados e a relevância da modelagem e análise de dados para instituições governamentais e não governamentais este projeto tem como objetivo geral promover a difusão do conhecimento relativo a modelagem e análise dados em pesquisas científicas produzidas, principalmente, em instituições de ensino e pesquisa, tendo como alicerce linguagens computacionais e planilhas eletrônicas de uso livre (Calc-Libreoffice). Para atender ao objetivo geral definimos os seguintes objetivos específicos: - Melhorar a qualidade das pesquisas de cunho quantitativo desenvolvidas na Universidade Estadual de Feira de Santana-UEFS; - Implementar novas metodologias de modelagem e análise de dados, especificamente, na área de Análise de Séries Temporais; - Aplicar modelos de séries temporais e de regressão nas áreas da Saúde Coletiva, Epidemiologia, Enfermagem, Meteorologia, Climatologia, Engenharia e demais áreas do conhecimento;- Difundir o conhecimento da linguagem R e Python entre discentes e docentes da graduação, mestrado e doutorado;- Promover o uso de planilhas eletrônicas e programas estatísticos de uso livre na comunidade acadêmica da Universidade Estadual de Feira de Santana; - Difundir o conhecimento teórico e prático da modelagem e análise de dados entre alunos e professores de outras instituições de pesquisa. Com a execução deste programa de extensão pretendemos contribuir com estudos que demandem de métodos quantitativos e na formação de discentes e docentes da Universidade Estadual de Feira de Santana com temas relativos a modelagem e análise de dados, tendo como alicerce a linguagem computacional R, Python e planilhas eletrônicas de uso livre.
Nesta seção será apresentado conceitos básicos e propriedades relevantes das linguagens de computação que irão fundamentar este programa de extensão. LINGUAGEM R A linguagem R é um conjunto integrado de recursos de software para manipulação de dados, cálculo e exibição gráfica. A linguagem R foi escolhida por possuir algumas propriedades relevantes, entre elas é possível destacar: - Instalação eficaz de manipulação e armazenamento de dados; - Conjunto de operadores para cálculos em matrizes; - Coleção grande, coerente e integrada de ferramentas intermediárias para análise de dados; - Facilidades gráficas para análise de dados e exibição na tela ou em cópia impressa, e - Uma linguagem de programação bem desenvolvida, simples e eficaz que inclui condicionais, loops (for, while e repeat) funções recursivas definidas pelo usuário e recursos de entrada e saída de dados. O R consiste em uma linguagem computacional e estatística capaz de desenvolver variados métodos da ciência Estatística. E atualmente possui mais de 18.000 pacotes disponíveis na sua rede com colaboração da comunidade acadêmica de diversas nacionalidades. Um pacote R trata-se de uma coleção de funções, dados e documentação que amplia as capacidades do R base (WICKHAM; GROLEMUND, 2019). Outro ponto importante a ser mencionado é fato de o R ser uma linguagem capaz de substituir a compra de programas estatísticos comerciais (SPSS, STATA, MINITAB, entre outros) o que reduz substancialmente o valor do orçamento da pesquisa. Mello e Peternelli (2013) mencionam que a linguagem R é uma ferramenta útil na modelagem e análise de dados, principalmente, por disponibilizar ao usuário um universo significativo de testes paramétricos e não paramétricos, modelagem linear e não linear, análise de séries temporais, análise de agrupamento, simulação, análise de sobrevivência, estatística espacial e elaboração de gráficos. Como mencionado anteriormente, a estatística é um conhecimento relevante para quem deseja trabalhar com modelagem e análise de dados. E o conhecimento de estatística juntamente com o da linguagem R possibilita ao pesquisador o acesso a uma variedade de pacotes disponíveis, flexibilidade e rapidez nas análises (MELLO; PETERNELLI, 2013). Para mais detalhes em relação a linguagem R é possível consultar https://www.r-project.org/about.html. LINGUAGEM PYTHON O Python tem sido uma escolha tanto para iniciantes em programação quanto para programadores experientes. Segundo Menezes (2014), o Python é uma linguagem simples, mas poderosa, que pode ser utilizada para gerenciar sistemas e desenvolver grandes projetos. Sua legibilidade combinada com sua extensa biblioteca permite ao Python um lugar único no mundo da programação. Sua sintaxe clara e intuitiva facilita o aprendizado e o entendimento, e além de utilizar espaços ao invés de colchetes ou outros símbolos para separar os blocos de código, também ajuda a deixar o código mais claro e estruturado, reduzindo erros de formatação comuns em outras linguagens. Outra propriedade relevante da linguagem Python é sua natureza orientada a objetos. Isso significa que a linguagem permite a criação e uso de objetos que encapsulam dados e funcionalidades relacionados. Isso promove a organização e a modularidade do código, facilitando sua reutilização e manutenção (RAMALHO, 2015; HASLWANTER, 2016; MANZANO, 2018; VIEIRA, 2023). A linguagem Python tem sido também utilizada para análise e modelagem de dados devido ao fato dela oferecer uma variedade de recursos e bibliotecas que tornam a análise estatística mais acessível, eficaz e flexível, como NumPy, pandas e SciPy. O NumPy fornece suporte para operações numéricas e matriciais, essenciais para cálculos estatísticos complexos. O pandas permite a manipulação e análise de dados de forma eficiente, tornando mais fácil a preparação e organização de dados para análise estatística. O SciPy oferece funções estatísticas avançadas e ferramentas para testes de hipóteses e modelagem (HASLWANTER, 2016). Considerando as propriedades da supracitada, o uso da linguagem Python no ensino de estatística é um recurso didático relevante para aqueles que querem e precisam adquirir conhecimentos básicos e avançados da estatística. Devido a este fato alguns autores têm se dedicado a produzir e discutir informações sobre o ensino de estatística com Python. Entre eles é possível citar: Vieira (2023), Haslwanter (2016) e Unpingco (2020).
Este programa de extensão terá como alicerce metodologias relativas a pesquisas quantitativas. Para Silva e Menezes (2000), do ponto de vista da forma de abordagem do problema, as pesquisas podem ser classificadas como quantitativa e qualitativa. E, segundo estes autores, na pesquisa quantitativa é considerado tudo que pode ser quantificável, ou seja o que é possível traduzir em números opiniões e informações para classificá-las e analisá-las de modo a requerer a utilização de recursos e técnicas estatísticas (medidas de posição e de dispersão, análise de regressão, análise de séries temporais, correlação, etc). Enquanto a pesquisa qualitativa não requer o uso de métodos e técnicas estatísticas. As pesquisas, cursos, consultorias e planos de trabalho vinculados a este programa de extensão terão como base o ciclo interativo (fluxo de trabalho) da modelagem e análise de dados com a Linguagem R e/ou Python: importação, organização, visualização e modelagem (WICKHAM, GROLEMUND, 2019). Para Wickham e Grolemund (2019), o primeiro passo a ser executado na modelagem e análise de dados com a linguagem R é a importação dos dados. Ou seja, pegar os dados armazenados em um arquivo ou base de dados web e carregá-los em uma estrutura de dados no R. O passo seguinte será a organização desses dados em uma forma consistente (cada coluna representando uma variável e cada linha uma observação). Silva, Peres Boscarioli (2016), referem que uma base de dados utilizada em sistemas informatizados convencionais geralmente é organizada de forma estruturada. E, além disso, essas bases são armazenadas em um conjunto de tabelas relacionadas em si. Uma vez organizado os dados o passo seguinte, em algumas situações, será a transformação dos dados que consiste, por exemplo, na criação de novas variáveis em função das variáveis existentes (logaritmo de uma variável) ou definição de conjunto de estatísticas resumo (contagens ou médias) (Figura 3). Uma vez organizado os dados os passos seguintes serão a visualização (Figura 4) e a modelagem. Segundo Wickham e Grolemund (2019), uma boa visualização possibilitará ao pesquisador levantar novas questões sobre os dados e os modelos são recursos complementares da visualização. E para os autores, caso sejam realizadas perguntas suficientes e precisas será possível um modelo para respondê-las. Uma vez organizado os dados os passos seguintes serão a visualização e a modelagem. Segundo Wickham e Grolemund (2019), uma boa visualização possibilitará ao pesquisador levantar novas questões sobre os dados e os modelos são recursos complementares da visualização. E para os autores, caso sejam realizadas perguntas suficientes e precisas será possível um modelo para respondê-las. O último passo a ser executado no fluxo de trabalho da modelagem e análise dos dados é a comunicação. E sem dúvida é extremamente relevante para qualquer projeto de análise de dados. Isto porque, por melhor que estejam sua visualização e modelagem ela não terá valor se a comunicação não for realizada para outras pessoas (WICKHAM; GROLEMUND, 2019). É relevante destacar que atualmente existem dados disponíveis passíveis de modelagem e análise que não são estruturados como textos imagens, vídeos e sons (SILVA; PERES; BOSCARIOLI, 2016).
Promover a difusão do conhecimento relativo a modelagem e análise dados em pesquisas científicas produzidas, principalmente, em instituições de ensino e pesquisa, tendo como alicerce linguagens computacionais e planilhas eletrônicas de uso livre.
- Melhorar a qualidade das pesquisas de cunho quantitativo desenvolvidas na Universidade Estadual de Feira de Santana-UEFS; - Implementar novas metodologias de modelagem e análise de dados, especificamente, na área de Análise de Séries Temporais; - Aplicar modelos de séries temporais e de regressão nas áreas da Saúde Coletiva, Epidemiologia, Enfermagem, Meteorologia, Climatologia, Engenharia e demais áreas do conhecimento; - Difundir o conhecimento da linguagem R e Python entre discentes e docentes da graduação, mestrado e doutorado; - Promover o uso de planilhas eletrônicas e programas estatísticos de uso livre na comunidade acadêmica da Universidade Estadual de Feira de Santana; - Difundir o conhecimento teórico e prático da modelagem e análise de dados entre alunos e professores de outras instituições de pesquisa.
Com o advento da computação científica, aperfeiçoamento dos computadores, a disponibilidade de dados de domínio público, principalmente nos últimos anos, a modelagem e análise de dados em diversas áreas do conhecimento tem crescido consideravelmente. Áreas do conhecimento como, Saúde Coletiva, Epidemiologia, Enfermagem, Meteorologia, Climatologia, Engenharia entre outras utilizam modelagem e análise de dados no planejamento e na execução de suas pesquisas. E, diante do exposto, não é exagero afirmar que é imprescindível para atuação profissional e carreira acadêmica dos profissionais das áreas supracitadas o estudo e domínio de métodos computacionais e estatísticos que viabilizem a aplicação e construção de modelos capazes de representar seus fenômenos adequadamente. Paralelamente a disponibilidade de dados e ao desenvolvimento de técnicas de modelagem e análise de dados tem aumentado também o interesse por parte da comunidade científica no aprendizado de linguagens computacionais capazes de otimizar a execução da modelagem e análise de dados. Atualmente, por questão de custo e independência, as instituições de pesquisas, governamentais e não governamentais tem incentivado o estudo e o uso de Software livre entre seus estudantes, pesquisadores e profissionais. É possível citar, entre os programas o Firefox, LibreOffice a linguagem Python, a linguagem R, o PSPP etc. Software livre é uma expressão utilizada para denotar qualquer programa de computador que pode ser executado, copiado, modificado e redistribuído pelos usuários gratuitamente. Para a execução do presente programa de extensão será adotada a linguagem de computação conhecida na literatura como R (R Core Team, 2020) e a linguagem Python.
Histórico de movimentação
12-03-2024 10:40:19
Criação da proposta
23-05-2024 13:03:09
Parecer da Câmara de Extensão
Programa Aprovado na Câmara de Extensão.
15-03-2024 18:06:24
Em Análise
Proposta enviada para análise da Câmara de Extensão
23-05-2024 13:03:09
Aprovado
Programa Aprovado na Câmara de Extensão.
23-05-2024 13:03:22
Ativo
Programa Ativo.