-
Notifications
You must be signed in to change notification settings - Fork 0
Pacote R para baixar e manipular dados de biodiversidade
License
badiaclara/GetBioData
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
GetBioData 🌿 Badia, C. (2026). GetBioData: Ferramenta para Coleta e Padronização de Dados de Biodiversidade (v0.1.4). Zenodo. https://doi.org/10.5281/zenodo.18329581 GetBioData é um pacote em R desenvolvido para automatizar a captura, padronização e limpeza de dados de ocorrência de espécies a partir das bases GBIF e speciesLink. O pacote resolve o problema comum de lidar com centenas de colunas desnecessárias e registros duplicados entre diferentes plataformas, entregando um conjunto de dados enxuto e pronto para análise. 🚀 Funcionalidades Download Simétrico: Captura dados do GBIF e speciesLink com nomes de colunas harmonizados. Seleção Essencial: Filtra automaticamente as 16 colunas fundamentais para biogeografia (Taxonomia, Coordenadas, Coletor, Data e Determinação). Deduplicação Hierárquica: Identifica duplicatas comparando IDs de catálogo, IDs de ocorrência, eventos de coleta e proximidade espacial. Auditoria Total: Gera arquivos LABEL (para conferência e identificação das duplicatas) e KILL (dados finais limpos, com duplicatas removidas). 📦 Instalação R # Instale via devtools if (!require("devtools")) install.packages("devtools") devtools::install_github("seu-usuario/GetBioData") 🛠️ Como usar O workflow principal consolida todo o processo em um único comando: R library(GetBioData) # 1. Configure sua chave do speciesLink (opcional) Sys.setenv(SPLINK_API_KEY = "sua_chave_aqui") ----> Importante: o usuário deve cadastrar-se no site do splink e gerar sua chave API, pessoal e intransferível. A análise não vai rodar sem a chave. # 2. Coleta e União (As 16 colunas) df <- run_workflow("Araucaria angustifolia") # Se o usuário quiser fazer o passo-a-passo manual: g <- get_gbif("Araucaria angustifolia") s <- get_splink("Araucaria angustifolia") total <- bind_biodata(g, s) |> dedup_label() |> kill_dedup() # Resultado: 16 colunas, registros únicos, pronto para análise! # Se quiser rodar com mais de uma espécie: # Criar a lista com nomes corretos e sem underscore ("_") minhas_especies <- c("Araucaria angustifolia", "Cedrela fissilis") # Rodando o workflow para todas de uma vez # O pacote vai criar dois arquivos Excel para cada espécie na lista! df <- run_workflow(minhas_especies) 📂 Entendendo os Resultados Para cada espécie, o GetBioData exporta: GetBioData_Dedup_LABELED_especie.xlsx: Contém todos os dados originais + colunas DUP_GROUP e DUP_CRITERIA. Use este arquivo para auditar por que um registro foi considerado duplicata. GetBioData_Dedup_KILLED_especie.xlsx: Arquivo final contendo apenas os registros únicos. Ideal para Modelagem de Distribuição de Espécies (SDM). 📊 Colunas Padronizadas (Standard 16) O pacote reduz a complexidade das bases originais para este conjunto essencial: Categoria Colunas Taxonomia ESPÉCIE, FAMÍLIA, GÊNERO Espaço LATITUDE, LONGITUDE, PAÍS, ESTADO, MUNICÍPIO Coleta COLETOR, DATA_COLETA Curadoria DETERMINADOR, DATA_DETERMINACAO Registros CATÁLOGO, INSTITUIÇÃO, OCCURRENCE_ID, FONTE 📄 Licença Este projeto está sob a licença MIT. Divirta-se :) Clara Badia
About
Pacote R para baixar e manipular dados de biodiversidade
Resources
License
Stars
Watchers
Forks
Packages 0
No packages published