• Aluno
  • Professor
IDP
  • Conheça o IDP
    • Nosso Campus
    • Corpo Docente
    • Parcerias Internacionais
    • Trabalhe Conosco
  • Cursos
    • Graduação
      • Administração
      • Arquitetura e Urbanismo
      • Ciência da Computação
      • Direito – Brasília
      • Economia
      • Engenharia de Software
      • Publicidade e Propaganda
      • Psicologia
      • Relações Internacionais
    • LLMs
      • LLM em Direito da Saúde
      • LLM Direito dos Negócios e Governança Corporativa
      • LLM Direito Penal Econômico
      • LLM Processo e Recursos nos Tribunais
    • Mestrado e Doutorado – Brasília
      • Mestrado em Administração Pública
      • Mestrado em Ciência de Dados e Inteligência Artificial
      • Mestrado em Ciência Política
      • Mestrado em Comunicação Digital
      • Mestrado em Direito Constitucional
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Relações Internacionais
      • Doutorado em Administração Pública
      • Doutorado em Direito
      • Doutorado em Economia
      • Pós-Doutorado em Direito
    • Mestrado e Doutorado – São Paulo
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Políticas Públicas
    • Mestrado e Doutorado – Goiânia
      • Mestrado Interinstitucional em Direito
      • Doutorado Interinstitucional em Direito
  • Cursos EAD
    • Especialização
      • Advocacia em Direito Privado e Empresarial
      • Direito Administrativo
      • Direito Constitucional
      • Direito Digital e Proteção de Dados
      • Direito Eleitoral
      • Direito Legislativo
      • Direito Processual Civil
      • Direito Penal e Processual Penal
      • Direito Tributário
      • Governo Digital, Inteligência Artificial e Inovação no Setor Público
      • Licitacões e Contratos
    • MBAs
      • MBA em Inteligência Artificial e Ciência de Dados
      • MBA em Direito e Regulação do Setor Elétrico
      • MBA em Gestão de Cidades
      • MBA em Gestão Pública e Políticas Públicas
      • MBA em Jornalismo de Dados
      • MBA em Políticas Públicas
      • MBA em Gestão Estratégica em Segurança Pública e Privada
      • MBA em Transição para a Economia de Baixo Carbono no Setor Público e Privado
      • MBA em Trânsito e Mobilidade Urbana
      • MBA em Relações Institucionais e Governamentais (RIG)
    • Curso de Extensão
      • Estrutura Tarifária
      • Reforma Tributária
      • Relações Institucionais e Governamentais (RIG) no Contexto Corporativo
      • Transação na Cobrança da Dívida Ativa Tributária
    • Cursos Gratuitos
      • Pre-College
  • Pesquisa e Academia
    • Pesquisa
      • Biblioteca
      • Programas de Incentivo
      • Centro de Pesquisa – CEPES
      • Centro de Pesquisas Peter Habërle
      • CEDIS
      • Grupos de Pesquisa
      • Grupos de Estudo
      • LAIPP
      • Centro Hans Kelsen
    • Publicações
      • Revista de Direito Público
      • Revista Caderno Virtual
      • REGEN – Revista de Gestão, Economia e Negócios
      • Boletim Economia Empírica
      • IDP Law Review
      • Teses e Dissertações
      • Revista Debates em Administração Pública
      • Revista Debates em Economia Aplicada
      • IDP Saraiva
    • Extensão
      • Career Center
      • Job Fair
      • NGDC
      • Laudelina – Núcleo Interdisciplinar de Liderança e Diversidade
    • CPA e CPSA
      • Comissão Própria de Avaliação
      • Comissão Permanente de Supervisão e Acompanhamento
  • A Vida no IDP
    • Notícias
    • Eventos
    • Podcasts do IDP
    • Projeto IDP OAB
  • Fale Conosco
IDP
  • CONHEÇA O IDP
    • Nosso Campus
    • Corpo Docente
    • Parcerias Inernacionais
    • Trabalhe Conosco
  • CURSOS
    • GRADUAÇÃO
      • Administração
      • Arquitetura
      • Ciência da Computação
      • Direito - Brasília
      • Direito - São Paulo
      • Economia
      • Engenharia de Software
      • Jornalismo
      • Publicidade e Propaganda
      • Psicologia
      • Relações Internacionais
    • ESPECIALIZAÇÃO
      • Direito Administrativo
      • Direito Constitucional
      • Direito Processual Civil
      • Direito tributário
    • LLMS
      • LLM em Direito da Saúde
      • LLM Direito dos Negócios e Governança Corporativa
      • LLM Direito Penal Econômico
      • LLM Processo e Recursos nos Tribunais
    • MESTRADO E DOUTORADO
      • Mestrado e Doutorado - Brasília
      • Mestrado em Administração Pública
      • Mestrado em Ciência de Dados e Inteligência Artificial
      • Mestrado em Ciência Política
      • Mestrado em Comunicação Digital
      • Mestrado em Direito Constitucional
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Relações Internacionais
      • Doutorado em Administração Pública
      • Doutorado em Direito
      • Doutorado em Economia
      • Pós-Doutorado em Direito
      • Mestrado e Doutorado - São Paulo
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Finanças
      • Mestrado em Políticas Públicas
      • Mestrado e Doutorado - Goiânia
      • Mestrado Interinstitucional em Direito
      • Doutorado Interinstitucional em Direito
  • CURSOS EAD
    • ESPECIALIZAÇÃO
      • Advocacia Privada
      • Direito Administrativo
      • Direito Constitucional
      • Direito Digital e Proteção de Dados
      • Direito Eleitoral
      • Direito Legislativo
      • Direito Processual Civil
      • Direito Tributário
    • MBAS
      • MBA em Inteligência Artificial e Ciência de Dados
      • MBA em Gestão de Cidades
      • MBA em Direito, Políticas Públicas e Economia da Mineração
      • MBA em Direito e Regulação do Setor Elétrico
      • MBA em Gestão de Cidades
      • MBA em Gestão Pública
      • MBA em Jornalismo de Dados
      • MBA em Políticas Públicas
      • MBA em Segurança Pública
      • MBA em Transição para a Economia de Baixo Carbono no Setor Público e Privado
      • MBA em Trânsito e Mobilidade Urbana
    • Curso de Extensão
      • Reforma Tributária
      • Relações Institucionais e Governamentais (RIG) no Contexto Corporativo
      • Transação na Cobrança da Dívida Ativa Tributária
    • Cursos Gratuitos
      • Open Class - Minicursos
      • Pre-College
      • IDP Experience
  • PESQUISA E ACADEMIA
    • PESQUISA
      • Biblioteca
      • Programas de Incentivo
      • Centro de Pesquisas Peter Habërle
      • Centro de Pesquisa - CEPES
      • CEDIS
      • Grupo de Pesquisa
      • Grupo de Estudo
      • LAIPP
    • PUBLICAÇÕES
      • Revista de Direito Público
      • Revista Caderno Virtual
      • Boletim Economia Empírica
      • IDP Law Review
      • Teses e Dissertações
      • IDP Saraiva
    • EXTENSÃO
      • Career Center
      • Job Fair
    • CPA
      • Comissão Própria de Avaliação
  • A VIDA NO IDP
    • Notícias
    • Eventos
    • EGEN
    • ECOM
    • IDP Experience
    • IDPTalks – Podcasts
  • FALE CONOSCO
ALUNO
PROFESSOR

Ferramentas de acessibilidade

VLibras

Consulte aqui o cadastro da Instituição no Sistema e-MEC


  • Home
  • Colunas
  • Dicas
  • Guia ECOM
  • Oportunidades
  • Tendências
  • Avisa Lá, ECOM
  • Pesquisar...
    Copia-e-cola é coisa do passado, a moda agora é, é raspar os seus dados
    set 15, 2021

    Nossos alunos do MBA em Jornalismo de Dados produziram uma série de tutoriais como trabalho final na disciplina Low Code: Transformando dados em pautas sem programar, ministrada pelo professor Adriano Belisário. Este mês você poderá conferir alguns dos trabalhos e se aventurar com os tutoriais elaborados por eles. Hoje você confere o tutorial feito por Carolina Timm.

    Web Scraper: um tutorial com início, meio e fim de um exercício de raspagem + dicas práticas

    Olá, pessoal. Cansou de passar horas copiando e colando informações que claramente poderiam estar em uma tabela pronta para baixar e não soltas em um site?
    Você gostaria de ter um jeito simples de coletar todas as informações que você precisa de uma vez só? Que tal uma tabela com dados estruturados à sua escolha extraída ao final da coleta?
    Pois então, descansa, o que você procura se chama raspagem de dados, um método de coleta de informações de forma automatizada.  Aqui, vamos aprender sobre uma ferramenta em especial: Web Scraper. 


    Por que ler este tutorial? 

    Ao final da leitura, você saberá como instalar e utilizar o Web Scraper para criar algo chamado Sitemap contendo Selectors capazes de navegar de forma autônoma e extrair informações como você determinar. Para nos guiar neste tutorial, vamos realizar a raspagem do Rotten Tomatoes (um site de crítica de filmes e séries), mais especificamente de um conteúdo intitulado 200 Best LGBTQ+ Movies of All Time. 


    Contextualizando o site escolhido

    Os dados que interessam neste tutorial estão nesta url.

    Repare que o ranking está distribuído ao longo de quatro páginas de resultados, nesta ordem de apresentação: 200-151; 150-101; 100-51; 50-1. Na página inicial, estão informações básicas: pôster do filme, título, ano de lançamento, avaliação (o “tomatômetro” clássico do site) se há consenso da crítica, sinopse, elenco e posição no ranking. 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - ranking página inicial rotten tomatoes.png

    É possível localizar e ler o conteúdo no site, mas os elementos não estão organizados de uma forma estruturada que permita fácil extração, manuseio e análise dos dados ali disponíveis. Sem um raspador, seria necessário organizar os elementos de forma manual, repetindo 200 vezes (literalmente)o processo de selecionar cada informação de cada filme. Ou seja, seria uma tarefa repetitiva e demandaria tempo. Por isso, a partir daqui vamos de mãos dadas com uma ferramenta chamada Web Scraper. 

    Conhecendo o Web Scraper

    webscraper.io é uma extensão gratuita e que você pode instalar em seu navegador em poucos minutos. À primeira vista, antes da instalação, é assim que ela se parece: 

    C:\Users\Windows 10\Desktop\print - site web scraper add to chrome.png

    Basta clicar em Adicionar a extensão ao seu navegador e autorizar a permissão de acesso. Para conferir se a instalação foi efetiva, vá até Extensões e confira se o ícone e o nome do Web Scraper já aparecem por lá. 


    Passo a Passo

    Primeiro, instale o Web Scraper no seu navegador.
    Acesse o Roten Tomatoes

    Em qualquer ponto da página, clique com o botão direito e vá em Inspecionar. 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - botão direito inspecionar.png

    Se a seção abrir na lateral do seu navegador, recomendo que você transfira para a parte inferior. Para isso, basta clicar nos três pontinhos no canto direito e optar pelo ícone que ilustra essa forma de visualizar:

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - botão direito pra baixo.png

    Em seguida, localize a aba Web Scraper no final da primeira linha.
    Ao clicar nela, a extensão exibe três conteúdos:
    >Sitemaps, onde são “guardados” os sitemaps criados ou importados no seu navegador (neste momento, logo após a instalação, esta aba estará vazia);
    >Sitemap, espaço do Sitemap “atual”; 
    >Create new sitemap, que traz duas opções: 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - create new sitemap.png

    Create Sitemap é a opção que nos interessa neste momento. Após clicar nela, você deve preencher dois campos e finalizar clicando em Create Sitemap.
    >Sitemap name: o nome que passará a identificar o seu Sitemap. Deve conter somente letras minúsculas, sem acentos e sem espaços. Aqui, se chama filmes_lgbtq
    >Start URL: copie e cole a URL da página: https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/ 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - sitemap name start url.png

    Assim que você clicar em Create Sitemap, você passa a habitar a aba Sitemap filmes_lgbtq, que já te apresenta ao campo dos seletores. 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - webscraper add new selector.pngVá Clique em Add new selector. O primeiro seletor que vamos criar vai reunir todas as informações que acompanham cada um dos filmes: pôster do filme, título, ano de lançamento, avaliação do site, sinopse enxuta, elenco e posição no ranking. Aqui, ele será chamado de filme. Em Type, você vai estar diante de diversas opções: 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - webscraper selector filme element.png


    O nosso seletor é Element. Abaixo, marque o quadrado Multiple, pois queremos que o seletor siga navegando pelos demais filmes e selecionando o padrão de informações que indicamos pra ele: 

    D:\Web Scraper\prints\print - webscraper selector filme.png

    Para selecionar, clique em Select. Aí, basta passar o cursor pela página até que todos os elementos do primeiro filme estejam selecionados (pôster, título, ano e assim por diante). Em seguida, desça pela página e faça essa mesma seleção no filme logo abaixo. Pronto, a essa altura, o Web Scraper já entendeu a sua ideia e vai selecionar os próximos nesta página.

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - webscraper seletor filme multiple.png


    Confirme a ação clicando em Done selecting. Confira se Multiple está confirmado e salve. Já temos o nosso primeiro seletor \o/
    A partir de agora, vamos criar seletores dentro deste seletor principal para cada uma das informações que nos interessam. 

    Contudo, antes disso, parênteses: se você clicar em Data Preview e conferir as informações, notará que apenas os filmes da primeira página foram selecionados. Ué, então preciso criar um Sitemap diferente para cada uma das quatro páginas e juntar tudo num editor de planilhas depois de exportar? Não, a boa notícia é que não precisa desse trabalho todo. Basta alterar a URL. 

    Clique nas demais páginas do ranking, uma por uma, e observe a URL de cada uma. Reparou como a mudança é o número ao final?
    https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/2/
    https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/3/
    https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/4/

    Em Sitemap filmes_lgbtq, você terá essas alternativas:

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - aba sitemap.png

    Escolha Edit metadata.
    Em Start URL, vamos alterar para https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/[1-4] Assim, as quatro páginas serão raspadas. 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Carolina Timm - Tutorial Low Code\prints\print - save sitemap metadata.pngApós salvar essa alteração, novamente clique em Sitemap filmes_lgbtq e volte para Selectors. Agora, ao invés de adicionar um novo seletor “principal”, vamos criar seletores dentro do seletor já criado. Para isso, clique em filme: 

    D:\Web Scraper\prints\print - adicionar seletor dentro de seletor filmes.png

    Repare que agora ele está indicado ao lado de _root na parte superior. Agora sim, Add new selector. Vamos começar selecionando o título? O Type agora é Text e você não precisa mais selecionar a opção Multiple, afinal, só tem um título dentro do nosso seletor principal “filme”. Com o cursor, selecione apenas a informação do título do filme e repita essa mesma seleção com o filme abaixo. 

    D:\Web Scraper\prints\print - webscraper seletor titulo.png

    O WebScraper já entendeu o que você quer selecionar como “titulo”. Para confirmar, você pode novamente consultar a Data Preview.

    D:\Web Scraper\prints\print - webscraper datapreview.png

    Salve o seletor ☺

    Com essa tática, vamos seguir criando seletores dentro do seletor principal “filme”:  

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - seletores dentro do seletor principal filme.png

    Um seletor para cada informação: titulo, ano, pôster, ranking, elenco, sinopse e avaliação. Todos eles serão Type Text? Hum, quase. A única exceção é o pôster, que será Type Image. 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - seletor imagem.png

    Todos os seletores já foram criados por aí? Ótimo!

    Em Sitemap filmes_lgbtq, agora olhe para a opção Scrape. Sim, é esse botão que faz a raspagem acontecer de forma automatizada. Sem precisar alterar os campos sobre a velocidade, ao clicar em Start Scraping, a extensão abrirá uma nova janela e nela fará a coleta dos dados a partir dos seletores criados. Não feche a janela com o ícone do Web Scraper, apenas deixe acontecer ☺ 

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Web Scraper\prints\print - webscraper após scrape.png


    Após a notificação do fim da raspagem, na aba Sitemap filmes_lgbt, você pode extrair as informações em formato csv > Export data as csv
    Após exportada, assim estará a sua planilha

    C:\Users\user\Desktop\MBA IDP Jornalismo de Dados\Aulas\Low Code - Dados e Pautas\Carolina Timm - Tutorial Low Code\prints\Figura20.png

    Além disso, você também pode exportar o próprio Sitemap, que será gerado assim: 

    {"_id":"filmes_lgbtq","startUrl":["https://editorial.rottentomatoes.com/guide/best-lgbt-movies-of-all-time/[1-4]"],"selectors":[{"id":"filme","type":"SelectorElement","parentSelectors":["_root"],"selector":"div.countdown-item:nth-of-type(n+2)","multiple":true,"delay":0},{"id":"titulo","type":"SelectorText","parentSelectors":["filme"],"selector":"h2 a","multiple":false,"regex":"","delay":0},{"id":"ano","type":"SelectorText","parentSelectors":["filme"],"selector":"span.subtle","multiple":false,"regex":"","delay":0},{"id":"poster","type":"SelectorImage","parentSelectors":["filme"],"selector":"img","multiple":false,"delay":0},{"id":"ranking","type":"SelectorText","parentSelectors":["filme"],"selector":"div.countdown-index","multiple":false,"regex":"","delay":0},{"id":"elenco","type":"SelectorText","parentSelectors":["filme"],"selector":"div.cast","multiple":false,"regex":"","delay":0},{"id":"sinopse","type":"SelectorText","parentSelectors":["filme"],"selector":"div.synopsis","multiple":false,"regex":"","delay":0},{"id":"avaliação","type":"SelectorText","parentSelectors":["filme"],"selector":"span.tMeterScore","multiple":false,"regex":"","delay":0}]}

    A título de curiosidade, é esse conteúdo que você cola na opção Import Sitemap quando quiser consultar este Sitemap em outro navegador ou compartilhar para que outros usuários possam acessar. 

    Essa é a nossa linha de chegada. Boas práticas e vida longa com o Web Scraper!

    https://media.tenor.com/images/ff4d08553f058aadb6e49b93e120f522/tenor.gif


    Avisa lá, ECOM

    Comentários

    Nenhum comentário ainda. Seja o primeiro!
    ecom/IDP
    Se você quer ficar atualizado sobre o que acontece na área de comunicação, criatividade, inovação e artes acompanhe o blog da ECOM/IDP. Este espaço traz novidades do mercado, artigos de especialistas, posts de estudantes e muita informação relevante da área.
    Open Class - Cursos Gratuitos
    Podcasts
    Eventos
    30/03/2021
    Webinar – Poder Judiciário e Re...
    25/02/2021
    Consequências econômicas das decisões...
    19/02/2021
    O discurso do ódio e a liberdade de e...
    08/02/2021
    Open Day IDP São Paulo
    Redes Sociais
    Facebook
    Curtir
    Twitter
    Follow Us
    LinkedIn
    Follow Us
    Instagram
    [instagram-feed user='idp.ecom' num=6 cols=3 imagepadding=10 showfollow=true showheader=true followcolor=#1d0f43 headercolor=#1d0f43]

    Assine a newsletter da ECOM


    IDP

    Institucional

    • Conheça o IDP
    • Nosso Campus
    • Responsabilidade Social
    • CPA
    • Política de Privacidade

    Cursos

    • Graduação
    • Pós-Graduação
    • Mestrado
    • Doutorado
    • Eventos e Cursos

    Outras Informações

    • Centro de Pesquisa
    • Biblioteca
    • Notícias
    • Eventos
    • Podcasts
    • Diplomas

    Contato

    SGAS Quadra 607 - Módulo 49 - Via L2 Sul - Brasilia - DF CEP 70.200-670

    SGAN Quadra 609 - Módulo A - Via L2 Norte - Brasília - DF - CEP 70.830-401

    (61) 3535-6565 - apenas ligação

    61 99649-6886 - apenas whatsapp

    central@idp.edu.br

    Consulte aqui o cadastro da Instituição no Sistema e-MEC

    © 2025 Todos Direitos Reservados

    DÚVIDAS?

    Pesquise abaixo ou fale conosco

    Controle de uso de dados
    Ao clicar em “Aceitar os cookies”, você concorda com tratamento de dados via cookies utilizados para analisar o uso deste site via analytics, publicidade baseada no seu comportamento em nosso site e também para a definição de estratégias de marketing do IDP. Algumas das finalidades são opcionais. Caso se oponha a elas, basta clicar em "Rejeitar todos".
    Acesse a Política de PrivacidadeRejeitar todosAceitar todos os cookies
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Sempre ativado
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SALVAR E ACEITAR
    AdBlock ativado!

    Notamos que você possui um ad-block ativo! Lembramos que formulários de cadastro do nosso site podem não ser exibidos por esse motivo. Sugerimos que você desligue o bloqueador para evitar problemas de cadastros.


    Não temos propaganda em nosso portal.