Analisando dados do Airbnb - Grande Lisboa
Neste projeto, iremos analisar os dados referentes à Grande Lisboa, e ver quais insights podem ser extraídos a partir de dados brutos.

O Airbnb já é considerado como sendo a maior empresa hoteleira da atualidade. Ah, o detalhe é que ele não possui nenhum hotel!
Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.
No final de 2018, a Startup fundada em 2008, já havia hospedado mais de 300 milhões de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.
Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal Inside Airbnb, é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.
Destino: Lisboa

O turismo em Portugal está na moda, e nada melhor do que começar um passeio pelo país pela sua capital, Lisboa.
O clima em Lisboa é agradável o ano todo, mas as melhores épocas para visitá-la são na primavera e no outono, quando as temperaturas são amenas e não costuma chover. Os meses de verão podem ser bem quentes, principalmente em agosto, período de férias escolares na Europa, quando alguns estabelecimentos podem permanecer fechados. O inverno costuma ser chuvoso e raramente atinge temperaturas abaixo de 0oC.
Esse cenário climático faz com que as Praias tornem-se a atração preferida dos turistas. Além disso os pontos históricos, a gastronomia e os jardins são passeios que valem a pena.
Com tantas opções de passeio o deslocamento também é um aspecto a ser considerado. Felizmente circular por Lisboa é muito fácil e agradável, partindo do centro da cidade, boa parte das atrações pode ser alcançada a pé, os passeios mais distantes podem ser alcançados utilizando os Metros, eléctricos (bondes) e autocarros (ônibus), que são opções acessíveis, além dos tradicionais: Táxi, Uber e afins.
Com todas essas facilidades, onde se hospedar passa a ser uma questão de escolher como curtir a cidade e não uma busca estratégica visando o itinerário.
A Grande Lisboa - semelhante ao que ocorre com a Grande São Paulo no Brasil - é composta de vários municípios: Alenquer, Amadora, Arruda dos Vinhos, Azambuja, Cadaval, Cascais, Lisboa, Loures, Lourinhã, Mafra, Odivelas, Oeiras, Sintra, Sobral de Monte Agraço, Torres Vedras e Vila Franca de Xira.
Airbnb em Portugal
Em Portugal, para um anfitrião anunciar um imóvel do tipo Alojamento Local (casas, apartamentos ou alojamentos) para aluguéis de curta duração é necessário que seja feito um registro no Portal Cidadão. Esse registro deve ser feito para todos os anúncios do Airbnb em Portugal. Essa regulamentação não determina os números mínimo e máximo de noites para aluguel.
Obtenção dos Dados
Os dados estão disponíveis no site Inside Airbnb.
Para essa análise utilizamos o arquivo listings.csv
que contém informações resumidas e métricas para a cidade de Lisboa.
Esse conjunto é composto (no momento da análise) de 19458 registros com 16 atributos (variáveis). A versão completa desse dataset também está disponível no portal e conta com 106 variáveis para análise.
Objetivos
O objetivo da nossa análise é identificar alguns padrões sobre o aluguel de imóveis do Airbnb em Lisboa. Analisaremos, principalmente os locais com maior oferta, a média de preço e qual a média do mínimo de noites para aluguel na cidade.
Análise dos Dados
Nessa etapa iremos entender como os dados estão estruturados e quais características nos chamam mais atenção.
Segundo sua documentação as variáveis estão divididas da seguinte maneira:
Dicionário das variáveis

id
- identificador único do airbnbname
- descrição do imóvelhost_id
- código do proprietário (anfitrião) do imóvelhost_name
- nome do anfitriãoneighbourhood_group
- grupo do bairroneighbourhood
- nome do bairrolatitude
- latitude do imóvellongitude
- longitude do imóvelroom_type
- tipo de quartoprice
- preço da diária em moeda local (no caso, euros)minimum_nights
- número mínimo de noitesnumber_of_reviews
- quantidade de reviewslast_review
- data da última reviewreviews_per_month
- média de reviews por mêscalculated_host_listings_count
- quantidade de imóveis do host na mesma regiãoavailability_365
- quantidade de dias disponíveis nos próximos 365 dias.
Verificando os valores únicos da variável neighbourhood_group
(grupo do bairro) percebemos que eles representam os 16 munícipios da Grande Lisboa.
Análise exploratória
Antes de iniciar a análise é importante sabermos como está a qualidade dos nossos dados, para isso, verificamos algumas informações sobre o dataset, tais como tipos das variáveis, quantidade de valores ausentes e como as variáveis estão distribuídas.
Utilizando esses critérios, alguns pontos nos chamam a atenção:
- 18% do dataset não possui informação nos campos de review (
reviews_per_month
elast_review
); - A variável
host_name
possui pouco mais de 0,1% de valores ausentes e - A variável
name
possui 0,05% de valores ausentes.
Nesse aspecto temos um conjunto de dados bom uma vez que as variáveis de review não são relevantes para nossa análise. No entanto ao verificar a distribuição das variáveis, notamos a presença de outliers - valores que destoam - que podem prejudicar nossa análise.

Pelo resumo acima vemos que:
- a variável
price
possui 75% dos valores abaixo de €110,00, porém seu valor máximo é € 20628,00. - notamos também a presença de valores zerados, em se tratando de aluguéis, não faz sentido que existam aluguéis gratuitos, portanto, também consideramos esses valores como outliers.
- a variável
minimum_nights
(mínimo de noites) possui valores acima de 365 dias.
Portanto, antes de continuarmos, faz-se necessário realizar uma limpeza nos dados, visando, principalmente eliminar (ou reduzir) esses outliers.
Limpeza dos Dados
Para remover outliers de um dataset, podemos excluir os registros ou alterar os valores seguindo algum critério. A escolha da estratégia depende de diversos fatores, tais como natureza da variável escolhida, objetivo do projeto, conjunto de dados analisado, etc.
Primeiro delimitamos os valores de corte dos outliers: 200 para price
e 6 para minimum_nights
, ou seja, iremos excluir todos os registros que possuam preço acima de € 200,00 e mínimo de noites acima de 6. Também iremos remover os registros com price = 0
. O cálculo realizado para determinar os valores de corte pode ser visto na análise.
Esses registros representam, respectivamente 8% e 6,5% do conjunto de dados. Nosso dataset limpo ficou com 16751 registros, uma redução de pouco mais de 13%. Devido à quantidade de dados disponíveis, acreditamos que esse é um número aceitável e não causará grandes prejuízos à análise.

Verificamos alguns pontos que merecem destaque:
- A mediana de
price
quase não foi afetada pela limpeza, isso significa que nossa limpeza não provocou grandes distorções nos preços; - A média e o desvio padrão de
price
foram reduzidos consideravelmente enfatizando a sensibilidade dessa variável a outliers e; - Agora não temos dados que não fazem sentido (por exemplo
price = 0
eminimum_nights > 365
).
Continuando a análise
Com os dados limpos podemos prosseguir com nossa análise respondendo à questão mais importante para quem deseja visitar Lisboa.
Qual a média de preços do aluguel?
Segundo a documentação do dataset todos os dados referentes a preço são dados em moeda local, portanto, a média de preço dos aluguéis em Lisboa é de
€ 77,00
Qual o tipo de imóvel mais alugado no Airbnb?
Em nosso dataset a variável room_type
indica qual o tipo do imóvel que está anunciado no Airbnb. As opções disponíveis são: Entire home/apt (apartamentos/casas inteiras), Hotel room (quarto de hotel), Shared Room (quarto compartilhado) ou Private room (aluguel de um quarto).

Vemos que em Lisboa a preferência de aluguel é para apartamentos/casas inteiras, e representa 63% do conjunto de dados.
Qual é a média do mínimo de noites para aluguel?
2 noites
A média do mínimo de noites em um imóvel é de aproximadamente 2 noites, o que indica que as pessoas costumam ficar em um imóvel em Lisboa o período equivalente ao final de semana.
Qual a localidade mais cara do dataset?
Vamos dividir essa pergunta em 2 partes. Primeiro vamos ver qual a cidade mais cara da Grande Lisboa, em seguida vamos analisar quais os bairros mais caros da capital Lisboa (cidade mais populosa de Portugal).

Pelo gráfico acima vemos que Arruda Dos Vinhos é a cidade com maior média de preço, no entanto, se analisarmos a quantidade de imóveis por cidade, vemos que nosso dataset possui apenas 5 imóveis nesse município, o que, consequentemente, eleva sua média. Portanto consideramos Mafra como o munícipio como localidade mais cara.

Ainda dentro dessa análise, vemos que Lisboa é a cidade que possui maior número de imóveis cadastrados. Vamos ver também qual é o bairro mais caro da cidade de Lisboa.

Pelo gráfico acima vemos que o Parque das Nações é o bairro com maior média de preço, segundo a Imobiliária Engel & Völkers “[O Parque das Nações] é atualmente um dos mais procurados para arrendamento, apresentando um preço por metro quadrado em torno dos 4.300 euros", isso, aliado à uma oferta relativamente baixa (193 imóveis no nosso dataset) pode ter contribuído com a média dos preços mais elevada nessa localidade.
Mapa de calor
Vamos visualizar melhor a distribuição dos preços dos imóveis na Grande Lisboa através do mapa de calor:

Para efeitos comparativos, vamos confrontar o mapa de calor acima, com o mapa da Vimeca, empresa responsável pelo transporte em Lisboa.

Comparando os dois mapas, vemos que a grande predominância de imóveis se dá nas regiões litorânea (incluindo as banhadas pelo reio Tejo) e na região central de Lisboa.
Conclusão
Foi realizada uma análise genérica dos dados do Airbnb para a Grande Lisboa. O objetivo principal era ter uma visão geral sobre o conjunto de dados e gerar insights para análises mais aprofundadas. Vimos que esse dataset possui alguns outliers fazendo-se necessária uma limpeza antes de prosseguirmos com a análise.
Algumas localidades possuem poucos imóveis disponíveis, o que pode provocar distorções na média dos preços.
Os locais com maior oferta estão localizados nas regiões litorâneas (e banhadas pelo rio Tejo) e no centro de Lisboa. O tempo médio despendido pelos visitantes na cidade é de pouco mais de 2 dias.
Por fim vale ressaltar que esse dataset contém uma parcela dos dados disponíveis pelo Airbnb, sendo ideal para uma análise inicial. No entanto recomenda-se a utilização da versão completa desse dataset que possui 106 atributos para análise.
Confira a análise completa aqui.