Como Usar a Biblioteca Pandas no Python

A biblioteca Pandas é uma das ferramentas mais poderosas e populares no mundo da ciência de dados e análise de dados com Python. Com ela, você pode realizar tarefas como manipulação de dados, limpeza, análise e muito mais de forma eficiente. Neste artigo, vamos mostrar um passo a passo básico para você começar a usar o Pandas em seus projetos.

1. Instalando o Pandas

Antes de começar, você precisa instalar a Biblioteca Pandas em seu ambiente Python. Para isso, basta rodar o seguinte comando no terminal:

pip install pandas

 

Se você já tem a biblioteca instalada, pode verificar a versão com:

pip show pandas

2. Importando o Pandas

Após instalar o Pandas, você precisa importá-lo no seu script Python. O Pandas geralmente é importado com o alias pd para facilitar o uso.

import pandas as pd

3. Criando um DataFrame

O DataFrame é a estrutura de dados principal no Pandas, similar a uma tabela de banco de dados ou uma planilha de Excel. Vamos criar um DataFrame simples a partir de um dicionário.

# Exemplo de dados
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
    'Idade': [23, 34, 29, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Salvador']
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Exibindo o DataFrame
print(df)

Saída:

     Nome       Idade     Cidade
0    Ana        23        São Paulo
1    Bruno      34        Rio de Janeiro
2    Carlos     29        Curitiba
3    Daniela    45        Salvador

4. Lendo Dados de um Arquivo CSV

O Pandas também permite a leitura de diversos tipos de arquivos de dados, como CSV, Excel, SQL, entre outros. Aqui está um exemplo de como ler um arquivo CSV:

# Lendo um arquivo CSV
df = pd.read_csv('dados.csv')

# Exibindo as 5 primeiras linhas
print(df.head())

5. Filtrando Dados 

Um dos recursos mais úteis do Pandas é a capacidade de filtrar dados de acordo com certas condições. Veja como filtrar os dados de pessoas com idade superior a 30 anos:

# Filtrando pessoas com idade maior que 30
df_filtrado = df[df['Idade'] > 30]

# Exibindo o resultado
print(df_filtrado)

 

6. Manipulando Colunas 

Você pode adicionar, remover ou alterar colunas em um DataFrame de forma muito simples. Aqui está como adicionar uma nova coluna que calcula o dobro da idade:


# Adicionando uma nova coluna
df['Idade X2'] = df['Idade'] * 2

# Exibindo o DataFrame atualizado
print(df)

Para remover uma coluna, basta usar o método drop():

# Removendo a coluna 'Idade X2'
df = df.drop(columns=['Idade X2'])

 

7. Agrupando e Resumindo Dados

Outra função poderosa da Biblioteca Pandas é a capacidade de agrupar dados e gerar resumos estatísticos. Vamos agrupar os dados pela cidade e calcular a média das idades:

# Agrupando por Cidade e calculando a média das idades
media_idades = df.groupby('Cidade')['Idade'].mean()

# Exibindo o resultado
print(media_idades)

 

8. Salvando um DataFrame em um Arquivo CSV

Depois de manipular os dados, você pode salvar o resultado em um novo arquivo CSV:

# Salvando o DataFrame em um arquivo CSV
df.to_csv('dados_modificados.csv', index=False)

Conclusão

O Pandas é uma ferramenta essencial para qualquer pessoa que deseja trabalhar com dados de maneira eficiente no Python. Neste artigo, você aprendeu os passos iniciais para instalar o Pandas, criar DataFrames, manipular dados e salvar os resultados. Existem muitas outras funcionalidades avançadas no Pandas, então continue explorando!

Esperamos que esse guia tenha sido útil. Para mais informações e tutoriais, continue acompanhando o nosso site!

Deixe um comentário