Analisando dados do Airbnb - Grande Lisboa

Neste projeto, iremos analisar os dados referentes à Grande Lisboa, e ver quais insights podem ser extraídos a partir de dados brutos.

Analisando dados do Airbnb - Grande Lisboa

O Airbnb já é considerado como sendo a maior empresa hoteleira da atualidade. Ah, o detalhe é que ele não possui nenhum hotel!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup fundada em 2008, já havia hospedado mais de 300 milhões de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal Inside Airbnb, é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.

Destino: Lisboa

Photo by Claudio Schwarz on Unsplash

O turismo em Portugal está na moda, e nada melhor do que começar um passeio pelo país pela sua capital, Lisboa.

O clima em Lisboa é agradável o ano todo, mas as melhores épocas para visitá-la são na primavera e no outono, quando as temperaturas são amenas e não costuma chover. Os meses de verão podem ser bem quentes, principalmente em agosto, período de férias escolares na Europa, quando alguns estabelecimentos podem permanecer fechados. O inverno costuma ser chuvoso e raramente atinge temperaturas abaixo de 0oC.

Esse cenário climático faz com que as Praias tornem-se a atração preferida dos turistas. Além disso os pontos históricos, a gastronomia e os jardins são passeios que valem a pena.

Com tantas opções de passeio o deslocamento também é um aspecto a ser considerado. Felizmente circular por Lisboa é muito fácil e agradável, partindo do centro da cidade, boa parte das atrações pode ser alcançada a pé, os passeios mais distantes podem ser alcançados utilizando os Metros, eléctricos (bondes) e autocarros (ônibus), que são opções acessíveis, além dos tradicionais: Táxi, Uber e afins.

Com todas essas facilidades, onde se hospedar passa a ser uma questão de escolher como curtir a cidade e não uma busca estratégica visando o itinerário.

A Grande Lisboa - semelhante ao que ocorre com a Grande São Paulo no Brasil - é composta de vários municípios: Alenquer, Amadora, Arruda dos Vinhos, Azambuja, Cadaval, Cascais, Lisboa, Loures, Lourinhã, Mafra, Odivelas, Oeiras, Sintra, Sobral de Monte Agraço, Torres Vedras e Vila Franca de Xira.

Airbnb em Portugal

Em Portugal, para um anfitrião anunciar um imóvel do tipo Alojamento Local (casas, apartamentos ou alojamentos) para aluguéis de curta duração é necessário que seja feito um registro no Portal Cidadão. Esse registro deve ser feito para todos os anúncios do Airbnb em Portugal. Essa regulamentação não determina os números mínimo e máximo de noites para aluguel.

Obtenção dos Dados

Os dados estão disponíveis no site Inside Airbnb.

Para essa análise utilizamos o arquivo listings.csv que contém informações resumidas e métricas para a cidade de Lisboa.

Esse conjunto é composto (no momento da análise) de 19458 registros com 16 atributos (variáveis). A versão completa desse dataset também está disponível no portal e conta com 106 variáveis para análise.

Objetivos

O objetivo da nossa análise é identificar alguns padrões sobre o aluguel de imóveis do Airbnb em Lisboa. Analisaremos, principalmente os locais  com maior oferta, a média de preço e qual a média do mínimo de noites para aluguel na cidade.

Análise dos Dados

Nessa etapa iremos entender como os dados estão estruturados e quais características nos chamam mais atenção.

Segundo sua documentação as variáveis estão divididas da seguinte maneira:

Dicionário das variáveis

Lista de munícipios existente no conjunto de dados
  • id - identificador único do airbnb
  • name - descrição do imóvel
  • host_id - código do proprietário (anfitrião) do imóvel
  • host_name - nome do anfitrião
  • neighbourhood_group - grupo do bairro
  • neighbourhood - nome do bairro
  • latitude - latitude do imóvel
  • longitude - longitude do imóvel
  • room_type - tipo de quarto
  • price - preço da diária em moeda local (no caso, euros)
  • minimum_nights - número mínimo de noites
  • number_of_reviews - quantidade de reviews
  • last_review - data da última review
  • reviews_per_month - média de reviews por mês
  • calculated_host_listings_count - quantidade de imóveis do host na mesma região
  • availability_365 - quantidade de dias disponíveis nos próximos 365 dias.

Verificando os valores únicos da variável neighbourhood_group (grupo do bairro) percebemos que eles representam os 16 munícipios da Grande Lisboa.

Análise exploratória

Antes de iniciar a análise é importante sabermos como está a qualidade dos nossos dados, para isso, verificamos algumas informações sobre o dataset, tais como tipos das variáveis, quantidade de valores ausentes e como as variáveis estão distribuídas.

Utilizando esses critérios, alguns pontos nos chamam a atenção:

  • 18% do dataset não possui informação nos campos de review (reviews_per_month e last_review);
  • A variável host_name possui pouco mais de 0,1% de valores ausentes e
  • A variável name possui 0,05% de valores ausentes.

Nesse aspecto temos um conjunto de dados bom uma vez que as variáveis de review não são relevantes para nossa análise. No entanto ao verificar a distribuição das variáveis, notamos a presença de outliers - valores que destoam - que podem prejudicar nossa análise.

Descrição das variáveis preço, número mínimo de noites e disponibilidade - dataset original

Pelo resumo acima vemos que:

  • a variável price possui 75% dos valores abaixo de €110,00, porém seu valor máximo é € 20628,00.
  • notamos também a presença de valores zerados, em se tratando de aluguéis, não faz sentido que existam aluguéis gratuitos, portanto, também consideramos esses valores como outliers.
  • a variável minimum_nights (mínimo de noites) possui valores acima de 365 dias.

Portanto, antes de continuarmos, faz-se necessário realizar uma limpeza nos dados, visando, principalmente eliminar (ou reduzir) esses outliers.

Limpeza dos Dados

Para remover outliers de um dataset, podemos excluir os registros ou alterar os valores seguindo algum critério. A escolha da estratégia depende de diversos fatores, tais como natureza da variável escolhida, objetivo do projeto, conjunto de dados analisado, etc.

Primeiro delimitamos os valores de corte dos outliers: 200 para price e 6 para minimum_nights, ou seja, iremos excluir todos os registros que possuam preço acima de € 200,00 e mínimo de noites acima de 6. Também iremos remover os registros com price = 0. O cálculo realizado para determinar os valores de corte pode ser visto na análise.

Esses registros representam, respectivamente 8% e 6,5% do conjunto de dados. Nosso dataset limpo ficou com 16751 registros, uma redução de pouco mais de 13%. Devido à quantidade de dados disponíveis, acreditamos que esse é um número aceitável e não causará grandes prejuízos à análise.

Descrição das variáveis preço, número mínimo de noites e disponibilidade - dataset limpo

Verificamos alguns pontos que merecem destaque:

  • A mediana de price quase não foi afetada pela limpeza, isso significa que nossa limpeza não provocou grandes distorções nos preços;
  • A média e o desvio padrão de price foram reduzidos consideravelmente enfatizando a sensibilidade dessa variável a outliers e;
  • Agora não temos dados que não fazem sentido (por exemplo price = 0 e minimum_nights > 365).

Continuando a análise

Com os dados limpos podemos prosseguir com nossa análise respondendo à questão mais importante para quem deseja visitar Lisboa.

Qual a média de preços do aluguel?

Segundo a documentação do dataset todos os dados referentes a preço são dados em moeda local, portanto, a média de preço dos aluguéis em Lisboa é de

€ 77,00

Qual o tipo de imóvel mais alugado no Airbnb?

Em nosso dataset a variável room_type indica qual o tipo do imóvel que está anunciado no Airbnb. As opções disponíveis são:  Entire home/apt (apartamentos/casas inteiras), Hotel room (quarto de hotel), Shared Room (quarto compartilhado) ou Private room (aluguel de um quarto).

Preferência de tipo de imóvel

Vemos que em Lisboa a preferência de aluguel é para apartamentos/casas inteiras, e representa 63% do conjunto de dados.

Qual é a média do mínimo de noites para aluguel?

2 noites

A média do mínimo de noites em um imóvel é de aproximadamente 2 noites, o que indica que as pessoas costumam ficar em um imóvel em Lisboa o período equivalente ao final de semana.

Qual a localidade mais cara do dataset?

Vamos dividir essa pergunta em 2 partes. Primeiro vamos ver qual a cidade mais cara da Grande Lisboa, em seguida vamos analisar quais os bairros mais caros da capital Lisboa (cidade mais populosa de Portugal).

Cidades da Grande Lisboa com maior preço médio de aluguel

Pelo gráfico acima vemos que Arruda Dos Vinhos é a cidade com maior média de preço, no entanto, se analisarmos a quantidade de imóveis por cidade, vemos que nosso dataset possui apenas 5 imóveis nesse município, o que, consequentemente, eleva sua média. Portanto consideramos Mafra como o munícipio como localidade mais cara.

Ainda dentro dessa análise, vemos que Lisboa é a cidade que possui maior número de imóveis cadastrados. Vamos ver também qual é o bairro mais caro da cidade de Lisboa.

Bairros mais caros de Lisboa

Pelo gráfico acima vemos que o Parque das Nações é o bairro com maior média de preço, segundo a Imobiliária Engel & Völkers “[O Parque das Nações] é atualmente um dos mais procurados para arrendamento, apresentando um preço por metro quadrado em torno dos 4.300 euros", isso, aliado à uma oferta relativamente baixa (193 imóveis no nosso dataset) pode ter contribuído com a média dos preços mais elevada nessa localidade.

Mapa de calor

Vamos visualizar melhor a distribuição dos preços dos imóveis na Grande Lisboa através do mapa de calor:

Mapa de calor - Imóveis Grande Lisboa

Para efeitos comparativos, vamos confrontar o mapa de calor acima, com o mapa da Vimeca, empresa responsável pelo transporte em Lisboa.

Mapa da Grande Lisboa - Vimeca

Comparando os dois mapas, vemos que a grande predominância de imóveis se dá nas regiões litorânea (incluindo as banhadas pelo reio Tejo) e na região central de Lisboa.

Conclusão

Foi realizada uma análise genérica dos dados do Airbnb para a Grande Lisboa. O objetivo principal era ter uma visão geral sobre o conjunto de dados e gerar insights para análises mais aprofundadas. Vimos que esse dataset possui alguns outliers fazendo-se necessária uma limpeza antes de prosseguirmos com a análise.

Algumas localidades possuem poucos imóveis disponíveis, o que pode provocar distorções na média dos preços.

Os locais com maior oferta estão localizados nas regiões litorâneas (e banhadas pelo rio Tejo) e no centro de Lisboa. O tempo médio despendido pelos visitantes na cidade é de pouco mais de 2 dias.

Por fim vale ressaltar que esse dataset contém uma parcela dos dados disponíveis pelo Airbnb, sendo ideal para uma análise inicial. No entanto recomenda-se a utilização da versão completa desse dataset que possui 106 atributos para análise.

Confira a análise completa aqui.

‌‌

‌‌