
















































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
A Estatística aplicada na Biologia
Tipologia: Notas de estudo
1 / 56
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Introdução a R R é uma linguagem e ambiente para computação estatística e gráficos. É um projeto GNU que é similar à linguagem e ambiente S que foi desenvolvida no Bell Laboratories (anteriormente AT&T, agora Lucent Technologies) por John Chambers e colegas. R pode ser considerada como uma implementação diferente da S. Há algumas diferenças importantes, mas muito código para S funciona inalterado em R. R fornece uma ampla variedade de técnicas estatísticas (modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento, ...) e gráficos, e é altamente extensível. A linguagem S é muitas vezes o veículo de escolha para pesquisa em metodologia estatística, e R fornece uma rota Open Source para participação naquela atividade. Um dos pontos fortes de R é a facilidade com que gráficos bem-desenhados com qualidade para publicação podem ser produzidos, incluindo símbolos matemáticos e fórmulas quando necessário. Muitos cuidados têm sido feitos sobre as definições padrão para as menores escolhas em desenho, entretanto o usuário retém controle total. R é disponível como Software Livre sob os termos da Licença Pública Geral GNU da Free Software Foundation na forma de código fonte. Ela compila e funciona em uma grande variedade de plataformas UNIX e sistemas similares (incluindo FreeBSD e Linux). Ele compila e funciona em Windows 9x/NT/2000 e MacOS. O ambiente R R é um conjunto integrado de facilidades de software para manipulação de dados, cálculo e visualização gráfica. Ele inclui
(http://www.r-project.org) há manuais e questões freqüentemente perguntadas (FAQ's) e estes estão também disponíveis localmente quando R é instalado. Há também um boletim, páginas de ajuda, e listas de publicações em revistas científicas. As listas de e-mail são fontes extremamente úteis de informações sobre como executar tarefas em R, além de dicas úteis de como resolver problemas em que não há ajuda documentada. Veja a Lista de Recursos de Ajuda na pagina 3 para iniciar aprendizagem do R. Referência é feita aos exemplos tirados do livro de Fowler & Cohen (1990). OS OBJETIVOS DESTA APOSTILA Esta apostila foi originalmente escrita para alunos da disciplina de Biometria do curso de Ciências Biológicos do Campus de Bragança, Universidade Federal do Pará, Brasil. Depois achei que também poderia ser útil para alunos de biologia (e de outros cursos) em outras instituições de ensino superior no Brasil. Assim, gostaria contar com o apoio dos leitores quanto às sugestões, críticas e melhorias no texto. Fornecer exemplos do uso do R no contexto de biologia porque, em geral, há carência de exemplos biológicos na documentação atual do R. Estimular a aprendizagem da estatística dando exemplos claros e simples da funcionalidade e flexibilidade do R. Estimular os alunos aproveitarem do Software Livre e portanto evitando as restrições de softwares comerciais e o uso não autorizado destes. LISTA DE RECURSOS DE AJUDA Das páginas do Projeto R na Internet http://r-project.org. O home page do projeto R http://cran.br.r-project.org O servidor mirror (espelho) brasileiro (UFPr) http://r-project.org/mail r-help é a lista mais apropriado para usuários http://cran.r-project.org/other-docs.html documentos de ajuda e tutoriais em vários formatos Nesta última página é particularmente recomendado o documento R for Beginners (Inglês) da autoria de Emanuel Paradis, ou R para Principiantes (a tradução da R for Beginners para o Espanhol feita por Jorge A. Ahumadal). Outras páginas na Internet sobre R http://www.agr.kuleuven.ac.be/vakken/StatisticsByR/index.htm Introdução à análise de dados usando R http://www.math.csi.cuny.edu/Statistics/R/simpleR/index.html Introdução usando o pacote Simple em R http://www.est.ufpr.br/Rtutorial/contents.html Tutorial sobre R em Português Algumas páginas chaves sobre Software Livre (SL) http://www.fsf.org/home_pt.html Free Software Foundation (GNU) http://www.softwarelivre.rs.gov.br Site sobre SL do Governo do RS http://www.softwarelivre.unicamp.br/sl Site sobre SL da UNICAMP, SP
http://gufsc.lcmi.ufsc.br Grupo de usuários de SL da UFSC http://focalinux.cipsga.org.br/guia/inic_interm/ch-intro.htm Introdução ao GNU/Linux Livros Dalgaard P (2002) Introductory Statistics with R. Springer, New York, ISBN 0-387-95475-9. Fox J (2002) An R and S-PLUS Companion to Applied Regression. Sage Publications, ISBN 0-761- 92280-6 (softcover) ou 0-761-92279-2 (hardcover) Comandos de ajuda do R
Sempre iniciar no seu diretório de trabalho (p. ex. meuprojeto) Em Windows: File=> Change dir e seleciona C:\meunome\meuprojeto ou alternativamente, usa
Em Linux:
Há uma distinção entre minúsculas e MAIÚSCULAS. Você pode ver o histórico de comandos colocados por você durante a sua sessão pressionando a tecla da seta para cima (↑). Isso é muito útil para verificar novamente os comandos anteriores ou reeditá-los. Pode copiar e colar na linha de comando: primeiro seleciona o texto a ser copiado e, em Windows clique com o botão direito do mouse, selecione Copy e clique novamente no botão direta e selecione Paste. Alternativamente use Crtl+C e Ctrl+V. Para copiar e colar em Linux, clique sobre o texto selecionado com o botão esquerdo do mouse com a tecla Ctrl pressionada (ou Ctrl+C). Para colar, clique com o botão do meio (ou os dois no mesmo tempo, se não tiver um mouse com três botões).
Usando a linha de comando de R podemos somar..
..subtrair,
..multiplicar,
..dividir,
e realizar cálculos mais complexos como se fosse uma calculadora científica.
Considere o seguinte cálculo:
Erros podem ocorrer quando R não entende o que foi digitado
Lembrando resultados: podemos designar um nome ao resultado do cálculo
Cálculos repetitivos podem ser automatizados
Para ir de x=17 e chegar a x=27, o número 2 foi somado cinco vezes ao valor de x que foi armazenado cada vez como x. O cálculo a mão seria: 17+2=19, 19+2=21, 21+2=23, 23+2=25, 25+2= A seqüência de números 1 a 5 pode ser obtida usando
Podemos designar x como a seqüência 1 a 5
Podemos calcular com a seqüência x
É possível somar duas seqüências..
..ou multiplica-las.
Duas seqüências podem ser juntadas para criar uma terceira usando c(). O "c" significa concatenar, ou seja, juntar.
Determinar o número de observações em um jogo de dados
Determinar o número de valores igual a zero
Estatística descritiva, boxplots , gráficos de barra e histogramas. A teoria e os cálculos detalhados de procedimentos nesta seção podem ser encontrados nos Capítulos 3, 4 e 5 de Vieira (1980), 4 e 5 de Levin (1985), 3 a 6 de Fowler & Cohen (1990) e 3 e 4 de Zar (1999). Importar os dados no arquivo de valores separados por virgulas, larvas.csv
Renomear as colunas com títulos com acentos e depois mostrar o novo jogo de dados x
Obter um resumo das estatísticas descritivas: a observação mínima, 1 a^ quartil (25%), mediana (50%), média aritmética, 3a^ quartil (75%) e a máxima são exibidos para cada amostra
Tocantins Melgaço Ourém Irituia Guamá Min. : 232.0 Min. : 218.0 Min. : 232.0 Min. : 232.0 Min. : 218. 1st Qu.:255.0 1st Qu.:255.0 1st Qu.:255.0 1st Qu.:255.0 1st Qu.:218. Median :255.0 Median :278.0 Median :255.0 Median :255.0 Median :232. Mean : 251.2 Mean : 265.8 Mean : 251.2 Mean : 251.2 Mean : 229. 3rd Qu.:255.0 3rd Qu.:278.0 3rd Qu.:255.0 3rd Qu.:255.0 3rd Qu.:232. Max. : 255.0 Max. : 289.0 Max. : 255.0 Max. : 255.0 Max. : 255. Podemos representar as estatísticas em uma forma gráfica, o boxplot, mas primeiro vamos importar um novo jogo de dados: massa.csv e mostrar as estatísticas (não mostrados aqui)
Boxplot mostrando a mediana (linha horizontal, quartis 25 % e 75 % (caixa verde) e observações máxima e mínima (linhas verticais) – Figura1. ylab e xlab são as etiquetas dos eixos y e x, respectivamente.
amostra D) - Figura 2
Brincadeira: tente usar diferentes cores variando o parâmetro col
Os dados não são mostrados aqui. Lembra que os valores (e as suas estatísticas!) serão ligeiramente diferentes devido a maneira aleatória de gerar as observações. Calcule o erro padrão e nomeie esta como o objeto R errpad
Calcule o Intervalo de Confiança 95 %. A amostra é grande (n>30) então basta multiplicar o erro padrão pelo valor crítico de z para a probabilidade p=0,
Calcule o Intervalo de Confiança 95 % para uma pequena amostra (n<30). Neste caso, amostra A do jogo de dados y, é preciso usar o valor crítico de t para a probabilidade 0,05 e com o número de graus de liberdade (gl) apropriado. Lembre: pequenas amostras de dados de contagem talvez precisem ser transformadas antes! O erro padrão da amostra A
Obter o valor crítico de t com 9 graus de liberdade. O valor de 2,262 representa o valor crítico da cauda superior com P=0,025. Olhe para um gráfico da curva normal para ver a distribuição da probabilidade em
Intervalo de confiança 95% da amostra A
Se quiser, pode também calcular estatísticas descritivas em planilhas como Gnumeric ou OpenOffice. Mais detalhes sobre o erro padrão e intervalos de confiança podem ser obtidos em Capítulo 14 de Vieira (1980), 7 de Levin e 11 de Fowler & Cohen (1990).
Figura 1. Boxplot dos dados sobre massa Figura 2. O mesmo boxplot sem os outliers (g) de pássaros em quatro locais (A-D). da amostra D. Figura 3. Barplot mostrando as observações cruas individuais de massa (g) da amostra A.
Inicie uma ligação com o jogo de dados z para permitir acesso fácil aos dados.
se as colunas dos dois jogos tenham nomes idênticas, se não haverá problemas! Plote as médias primeiro com os eixos devidamente etiquetados. Criamos um objeto do gráfico chamado centros que lembra a posição do centro das barras de cada rio. O tamanho das etiquetas dos eixos é reduzida pelo cex.names enquanto o ylim controla o valor mínimo e máximo do eixo-y.
Acrescente as barras de erro como valores de desvio padrão da média
Você deve ver no final um gráfico mostrando as médias de cada amostra e com barras de erro mostrando o desvio padrão – Figura 6 Termine a ligação com o jogo de dados z
Figura 6. Média (± desvio padrão) dos dados (larvas.csv) sobre comprimento de larvas de bivalves de água doce em cinco diferentes rios amazônicos.
Excelentes discussões sobre transformações de dados podem ser encontrados em Capítulo 13 de Zar (1999) e 10 de Fowler & Cohen (1990). No R, log() é o logaritimo natural (ln) enquanto log10() é o logaritmo à base de 10. Na verdade, log b () é o logaritmo à base do número b. Crie uma amostra chamada meusdados e verifique os dados em seguida
Calcule a média e a variância da amostra. A variância da amostra é muito maior que a média, então a transformação log (x+1) é apropriada. Lembre a razão que é log (x+1) e não apenas log (x)?
Transforme usando log10 (x+1) e crie um novo jogo de dados transformados chamado logmeusdados. Em seguida digite logmeusdados para visualizar as observções transformadas
Calcule a média e a variância da amostra transformada. O que aconteceu com a razão entre a média e a variância? Experimente outras funções como a raiz quadrada: sqrt()
Para vocês que estão com pressa para entregar aquele relatório ou TCC (!!), tente a seguinte:
Mais exemplos podem ser obtidos nos Capítulos 11 de Vieira (1980), 10 de Levin (1985), 13 de Fowler & Cohen (1990) e 22 e 23 de Zar (1999). Freqüências observadas dos 10 integers 0 a 9 obtidos em uma amostra gerada aleatoriamente (n=100) pelo computador:
A freqüência esperada ( f esperada) para cada integer é 10, mas vocês já devem ter pensado nisso ;-) Rode qui-quadrado
O valor de probabilidade indica que as freqüências observadas não diferem das freqüências esperadas, ou seja as observações são verdadeiramente aleatórias. Verifique as freqüências esperadas
Um exemplo sobre as freqüências de moscas em uma pequena lagoa
Verifique as freqüências de quatro espécies de mosca
Plote as freqüências – Figura 7
As freqüências observadas são significativamente diferentes da homogeneidade? (lembra como se calcula a f esperada=18.75?)
As freqüências das quatro espécies são diferentes de uma distribuição homogênea. UM GRAU DE LIBERDADE Quando há apenas duas categorias, há um grau de liberdade e a correção de Yates é usada. Podemos testar a hipótese nula que a razão entre macho : fêmea não é diferente de 1 : 1. Uma amostra de 16 larvas coletadas e criadas até adulto contém 12 machos e 4 fêmeas (Fowler & Cohen, 1990). Esta razão é significativamente diferente de 1 : 1? Coloque as freqüências observadas numa matriz com duas colunas
O valor de qui-quadrado 3,0625 é menor que o valor crítico com v=1, portanto aceitamos a hipótese nula. Importante: os indivíduos de cada sexo devem ser dispersos em uma maneira independente.