>
Neste post, vamos aprender a raspar a web com python. Usando python, vamos raspar o Yahoo Finance. Esta é uma ótima fonte para dados do mercado de ações. Nós vamos codificar um raspador para isso. Usando esse raspador você seria capaz de raspar dados de ações de qualquer empresa do yahoo finance. Como vocês sabem eu gosto de tornar as coisas bem simples, para isso, eu também estarei usando um raspador web que irá aumentar sua eficiência de raspagem.
Por que esta ferramenta? Esta ferramenta nos ajudará a raspar sites dinâmicos usando milhões de proxies rotativos para que não sejamos bloqueados. Ela também fornece uma facilidade de limpeza. Ela usa o cromo sem cabeçalho para raspar websites dinâmicos.
De modo geral, a raspagem da web é dividida em duas partes:
- Recuperar dados fazendo um pedido HTTP
- Extrair dados importantes analisando o HTML DOM
Bibliotecas & Ferramentas
- Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML.
- Pedidos permitem que você envie pedidos HTTP muito facilmente.
- ferramenta de raspagem web para extrair o código HTML da URL de destino.
Configuração
Nossa configuração é bem simples. Basta criar uma pasta e instalar o Beautiful Soup & pedidos. Para criar uma pasta e instalar bibliotecas, digite abaixo os comandos fornecidos. Estou assumindo que você já instalou o Python 3.x.
mkdir scraper
pip install beautifulsoup4
pip install requests
Agora, crie um arquivo dentro dessa pasta com qualquer nome que você goste. Estou usando o scraping.py.
Primeiro, você tem que se inscrever para a API do scrapingdog. Ela irá fornecer-lhe 1000 créditos GRÁTIS. Depois basta importar os pedidos de Beautiful Soup & no seu arquivo. assim.
from bs4 import BeautifulSoup
import requests
O que vamos raspar
Aqui está a lista de campos que vamos extrair:
>
- Fechamento Anterior
- Abrir
- Lance
- Ask
- Avalo do Dia
- Avalo da Semana
- Volume
- Avg. Volume
- Capa de mercado
- Beta
- RácioPE
- EPS
- Taxa de ganhos
- Dividendo futuro&Rendimento
- Ex-Dividendo & Data
- 1y alvo EST
>
>