21 Lugares para Encontrar Conjuntos de Dados Gratuitos para Projectos de Ciência de Dados

Se já trabalhou num projecto de ciência de dados pessoais, provavelmente já passou muito tempo a navegar na Internet à procura de conjuntos de dados interessantes para analisar. Pode ser divertido procurar em dezenas de conjuntos de dados para encontrar o perfeito, mas também pode ser frustrante descarregar e importar vários ficheiros CSV, apenas para perceber que os dados não são assim tão interessantes afinal de contas. Felizmente, existem repositórios online que curam conjuntos de dados e (na sua maioria) removem os desinteressantes.

Neste post, vamos percorrer vários tipos de projectos de ciência de dados, incluindo projectos de visualização de dados, projectos de limpeza de dados, e projectos de aprendizagem de máquinas, e identificar bons locais para encontrar conjuntos de dados para cada um. Quer queira reforçar o seu portfólio de ciência de dados mostrando que pode visualizar bem os dados, quer tenha algumas horas livres e queira praticar as suas capacidades de aprendizagem de máquinas, temos a sua cobertura.

Mas primeiro, vamos responder a algumas perguntas rápidas e fundamentais:

O que é um conjunto de dados?

Um conjunto de dados, ou conjunto de dados, é simplesmente uma colecção de dados.

O formato mais simples e mais comum para conjuntos de dados que encontrará online é uma folha de cálculo ou formato CSV – um único ficheiro organizado como uma tabela de linhas e colunas. Mas alguns conjuntos de dados serão armazenados noutros formatos, e não têm de ser apenas um ficheiro. Por vezes um conjunto de dados pode ser um ficheiro zip ou pasta contendo múltiplas tabelas de dados com dados relacionados.

Como são criados os conjuntos de dados?

Diferentes conjuntos de dados são criados de formas diferentes. Neste post, encontrará links para fontes com todos os tipos de conjuntos de dados. Alguns deles serão dados gerados por máquinas. Alguns serão dados que foram recolhidos através de inquéritos. Alguns poderão ser dados que são registados a partir de observações humanas. Alguns podem ser dados que foram raspados de websites ou puxados através de APIs.

Quando se trabalha com um conjunto de dados, é importante considerar: como foi criado este conjunto de dados? De onde vêm os dados? Não salte directamente para a análise; tome o tempo necessário para compreender primeiro os dados com que está a trabalhar.

Conjuntos de dados públicos para projectos de visualização de dados

Um projecto típico de visualização de dados pode ser algo do tipo “Eu quero fazer um infográfico sobre como os rendimentos variam nos diferentes estados dos EUA”. Há algumas considerações a ter em mente ao procurar um bom conjunto de dados para um projecto de visualização de dados:

  • Não deve ser confuso, porque não se quer gastar muito tempo a limpar dados.
  • Deve ser matizado e interessante o suficiente para fazer gráficos sobre.
  • De facto, cada coluna deve ser bem explicada, por isso a visualização é precisa.
  • O conjunto de dados não deve ter muitas linhas ou colunas, por isso é fácil de trabalhar com.

Um bom local para encontrar bons conjuntos de dados para projectos de visualização de dados são sites de notícias que divulgam os seus dados publicamente. Normalmente limpam os dados para si, e também já têm gráficos que podem ser replicados ou melhorados.

FiveThirtyEight

FiveThirtyEight é um site de notícias e desporto interactivo incrivelmente popular, iniciado por Nate Silver. Escrevem artigos interessantes, como “Don’t blame a skill gap for lack of hiring in manufacturing” e “2016 NFL Predictions”.

FiveThirtyEight torna os conjuntos de dados utilizados nos seus artigos disponíveis online no Github.

Ver os conjuntos de dados FiveThirtyEight

Aqui estão alguns exemplos:

  • Airline Safety – contém informações sobre acidentes de cada companhia aérea.
  • História do Tempo nos EUA – dados históricos do tempo para os EUA.
  • Drogas de Estudo – dados sobre quem está a tomar Adderall nos EUA.

BuzzFeed

BuzzFeed começou como um fornecedor de artigos de baixa qualidade, mas desde então evoluiu e agora escreve alguns artigos de investigação, como “O tribunal que governa o mundo” e “A curta vida de Deonte Hoard”.

BuzzFeed torna os conjuntos de dados utilizados nos seus artigos disponíveis em Github.

Ver os conjuntos de dados BuzzFeed

Aqui estão alguns exemplos:

  • Aviões de Vigilância Federal – contém dados sobre aviões utilizados para vigilância doméstica.
  • Vírus Zika – dados sobre a geografia do surto do vírus Zika.
  • Verificação de antecedentes de armas de fogo – dados sobre a verificação de antecedentes de pessoas que tentam comprar armas de fogo.

NASA

NASA é uma organização governamental financiada publicamente, e portanto todos os seus dados são públicos. Mantém websites onde qualquer pessoa pode descarregar os seus conjuntos de dados relacionados com as ciências da terra e conjuntos de dados relacionados com o espaço. Pode até ordenar por formato no site das ciências da terra para encontrar todos os conjuntos de dados CSV disponíveis, por exemplo.

Sets de dados públicos para projectos de processamento de dados

Por vezes só se quer trabalhar com um grande conjunto de dados. O resultado final não importa tanto como o processo de leitura e análise dos dados. Poderá utilizar ferramentas como Spark ou Hadoop para distribuir o processamento por vários nós. Coisas a ter em mente ao procurar um bom conjunto de dados de processamento de dados:

  • Quanto mais limpo o conjunto de dados, melhor – a limpeza de um grande conjunto de dados pode ser muito demorada.
  • O conjunto de dados deve ser interessante.
  • Deve haver uma pergunta interessante que possa ser respondida com os dados.

Um bom lugar para encontrar grandes conjuntos de dados públicos são os fornecedores de alojamento em nuvem como a Amazon e o Google. Eles têm um incentivo para hospedar os conjuntos de dados, porque os fazem analisar usando a sua infra-estrutura (e pagá-los).

AWS Public Data sets

Amazon disponibiliza grandes conjuntos de dados na sua plataforma Amazon Web Services. Pode descarregar os dados e trabalhar com eles no seu próprio computador, ou analisar os dados na nuvem usando EC2 e Hadoop via EMR. Pode ler mais sobre como o programa funciona aqui.

Amazon tem uma página que lista todos os conjuntos de dados para que possa navegar. Vai precisar de uma conta AWS, embora a Amazon lhe dê um nível de acesso gratuito para novas contas que lhe permitirá explorar os dados sem ser cobrado.

Veja conjuntos de dados públicos AWS

Aqui estão alguns exemplos:

  • Listas de n-gramas do Google Books – palavras comuns e grupos de palavras de um enorme conjunto de livros.
  • Common Crawl Corpus – dados de um crawl de mais de 5 biliões de páginas web.
  • Landsat images – imagens de satélite de resolução moderada da superfície da Terra.

Google Public Data sets

Muito parecido com o Amazon, o Google também tem um serviço de cloud hosting, chamado Google Cloud Platform. Com GCP, pode usar uma ferramenta chamada BigQuery para explorar grandes conjuntos de dados.

Google lista todos os conjuntos de dados de uma página. Precisará de subscrever uma conta GCP, mas as primeiras 1TB de consultas que fizer são gratuitas.

Ver os conjuntos de dados públicos do Google

Aqui estão alguns exemplos:

  • Nomes dos EUA – contém todas as aplicações de nomes da Segurança Social nos EUA, de 1879 a 2015.
  • Github Activity – contém toda a actividade pública em mais de 2,8 milhões de repositórios públicos Github.
  • Historical Weather – dados de 9000 estações meteorológicas NOAA de 1929 a 2016.

Wikipedia

Wikipedia é uma enciclopédia gratuita, online, editada pela comunidade. A Wikipédia contém um espantoso leque de conhecimentos, contendo páginas sobre tudo, desde as Guerras Otomano-Habsburgo a Leonard Nimoy. Como parte do compromisso da Wikipédia para o avanço do conhecimento, eles oferecem todo o seu conteúdo gratuitamente, e geram regularmente lixeiras de todos os artigos do site. Além disso, a Wikipédia oferece a edição de história e actividade, para que se possa acompanhar como uma página sobre um tópico evolui ao longo do tempo, e quem contribui para isso.

p>Pode encontrar as várias formas de descarregar os dados no sítio da Wikipédia. Encontrará também scripts para reformatar os dados de várias maneiras.

Ver conjuntos de dados da Wikipedia

Aqui estão alguns exemplos:

  • Todas as imagens e outros media da Wikipedia – todas as imagens e outros ficheiros media na Wikipedia.
  • Despejos completos do site – do conteúdo da Wikipedia, em vários formatos.

Sets de dados públicos para projectos de aprendizagem automática

Quando se trabalha num projecto de aprendizagem automática, quer-se poder prever uma coluna das outras colunas de um conjunto de dados. Para podermos fazer isto, temos de nos certificar de que:

  • O conjunto de dados não é muito confuso – se for, passaremos todo o nosso tempo a limpar os dados.
  • Há uma coluna alvo interessante para fazer previsões.
  • As outras variáveis têm algum poder explicativo para a coluna de destino.

Existem alguns repositórios on-line de conjuntos de dados que são especificamente para a aprendizagem de máquinas. Estes conjuntos de dados são tipicamente limpos com antecedência, e permitem testar algoritmos muito rapidamente.

Kaggle

Kaggle é uma comunidade de ciência de dados que organiza concursos de aprendizagem de máquinas. Há uma variedade de conjuntos de dados interessantes com contribuições externas no site. A Kaggle tem competições ao vivo e históricas. Pode descarregar dados para qualquer uma delas, mas tem de se inscrever no Kaggle e aceitar os termos de serviço para o concurso.

Pode descarregar dados do Kaggle inscrevendo-se num concurso. Cada concurso tem o seu próprio conjunto de dados associados. Existem também conjuntos de dados com contribuições de utilizadores encontrados na nova oferta de conjuntos de dados Kaggle.

Ver conjuntos de dados KaggleVer concursos Kaggle

Aqui estão alguns exemplos:

  • Encomenda de fotografias de satélite – um conjunto de dados de fotografias de satélite da Terra – o objectivo é prever que fotografias foram tiradas mais cedo do que outras.
  • Falhas no processo de fabrico – um conjunto de dados de variáveis que foram medidas durante o processo de fabrico. O objectivo é prever falhas com o fabrico.
  • Perguntas de Escolha Múltipla – um conjunto de dados de perguntas de escolha múltipla e as correspondentes respostas correctas. O objectivo é prever a resposta para qualquer pergunta.

Repositório de Aprendizagem de Máquinas UCI

O Repositório de Aprendizagem de Máquinas UCI é uma das mais antigas fontes de conjuntos de dados na web. Apesar de os conjuntos de dados serem contribuídos pelo utilizador e, portanto, terem níveis variáveis de documentação e limpeza, a grande maioria está limpa e pronta para a aprendizagem de máquinas a ser aplicada. UCI é uma excelente primeira paragem na procura de conjuntos de dados interessantes.

Pode descarregar dados directamente do repositório de aprendizagem de máquinas UCI, sem registo. Estes conjuntos de dados tendem a ser bastante pequenos, e não têm muitas nuances, mas são bons para a aprendizagem de máquinas.

Ver Repositório de Aprendizagem de Máquinas UCI

Aqui estão alguns exemplos:

  • Email spam – contém emails, juntamente com um rótulo de se são ou não spam.
  • Classificação de vinhos – contém vários atributos de 178 vinhos diferentes.
  • Erupções solares – atributos das erupções solares, úteis para prever as características das erupções.

Quandl

Quandl é um repositório de dados económicos e financeiros. Algumas destas informações são gratuitas, mas muitos conjuntos de dados requerem compra. Quandl é útil para a construção de modelos para prever indicadores económicos ou preços de acções. Devido à grande quantidade de conjuntos de dados disponíveis, é possível construir um modelo complexo que utiliza muitos conjuntos de dados para prever valores noutro.

Ver conjuntos de dados de Quandl.

Aqui estão alguns exemplos:

  • Actividade empresarial por raça e outros factores – contém dados da fundação Kauffman sobre empresários nos EUA.
  • Dados macroeconómicos chineses – indicadores da saúde económica chinesa.
  • Dados da Reserva Federal dos EUA – indicadores económicos dos EUA, da Reserva Federal.

Sets de Dados Públicos para Projectos de Limpeza de Dados

Por vezes, pode ser muito satisfatório pegar num conjunto de dados espalhados por vários ficheiros, limpá-los, condensá-los em um, e depois fazer algumas análises. Em projectos de limpeza de dados, por vezes são necessárias horas de investigação para descobrir o significado de cada coluna do conjunto de dados. Pode por vezes revelar-se que o conjunto de dados que está a analisar não é realmente adequado para o que está a tentar fazer, e terá de começar de novo.

Quando procura um bom conjunto de dados para um projecto de limpeza de dados, quer que:

  • esteja espalhado por múltiplos ficheiros.
  • Disponha muitas nuances, e muitos ângulos possíveis a tomar.
  • Requer uma boa quantidade de investigação para compreender.
  • Ser o “mundo real” possível.

Estes tipos de conjuntos de dados são tipicamente encontrados em agregadores de conjuntos de dados. Estes agregadores tendem a ter conjuntos de dados de múltiplas fontes, sem muita curadoria. Demasiada curadoria dá-nos conjuntos de dados demasiado limpos que são difíceis de fazer uma limpeza extensiva em.

data.world

data.world descreve-se a si próprio em ‘a rede social para pessoas de dados’, mas poderia ser mais correctamente descrito como ‘GitHub para dados’. É um local onde se pode pesquisar, copiar, analisar e descarregar conjuntos de dados. Além disso, pode carregar os seus dados em data.world e utilizá-los para colaborar com outros.

Em relativamente pouco tempo, tornou-se um dos locais ‘ir a’ lugares para adquirir dados, com muitos conjuntos de dados contribuídos pelos utilizadores, bem como conjuntos de dados fantásticos através de dados.As parcerias mundiais com várias organizações incluem uma grande quantidade de dados do Governo Federal dos EUA.

Um diferenciador chave de data.world são as ferramentas que construíram para facilitar o trabalho com dados – pode escrever consultas SQL dentro da sua interface para explorar dados e juntar-se a múltiplos conjuntos de dados. Têm também SDK’s para R e python para facilitar a aquisição e o trabalho com dados na sua ferramenta de escolha (Poderá estar interessado em ler o nosso tutorial sobre o data.world Python SDK.)

Ver conjuntos de dados.world Data sets

Data.gov

Data.gov é um site relativamente novo que faz parte de um esforço dos EUA em direcção a um governo aberto. Data.gov torna possível descarregar dados de várias agências governamentais dos EUA. Os dados podem variar desde orçamentos governamentais a pontuações de desempenho escolar. Grande parte dos dados requer investigação adicional, e por vezes pode ser difícil descobrir qual o conjunto de dados que é a versão “correcta”. Qualquer pessoa pode descarregar os dados, embora alguns conjuntos de dados necessitem de mais alguns obstáculos, como o acordo de acordos de licenciamento.

P>Pode navegar directamente pelos conjuntos de dados em Data.gov, sem se registar. Pode navegar por área temática, ou procurar um conjunto de dados específico.

Ver Data.gov Conjuntos de dados

Aqui estão alguns exemplos:

  • Atlas do ambiente alimentar – contém dados sobre como as escolhas alimentares locais afectam a dieta nos EUA.
  • Finanças do sistema escolar – um levantamento das finanças dos sistemas escolares nos EUA.
  • Dados sobre doenças crónicas – dados sobre indicadores de doenças crónicas em áreas nos EUA.

O Banco Mundial

p> O Banco Mundial é uma organização de desenvolvimento global que oferece empréstimos e aconselhamento aos países em desenvolvimento. O Banco Mundial financia regularmente programas nos países em desenvolvimento, depois reúne dados para monitorizar o sucesso destes programas.

Pode navegar directamente pelos conjuntos de dados do Banco Mundial, sem se registar. Os conjuntos de dados têm muitos valores em falta, e por vezes são necessários vários cliques para chegar aos dados.

Ver conjuntos de dados do Banco Mundial

Aqui estão alguns exemplos:

  • Indicadores de Desenvolvimento Mundial – contém informação a nível de país sobre desenvolvimento.
  • Estatísticas educacionais – dados sobre educação por país.
  • Custos de projectos do Banco Mundial – dados sobre projectos do Banco Mundial e respectivos custos.

/r/datasets

Reddit, um popular sítio de discussão comunitária, tem uma secção dedicada à partilha de conjuntos de dados interessantes. Chama-se subreddit aos conjuntos de dados, ou /r/datasets. O âmbito destes conjuntos de dados varia muito, uma vez que são todos apresentados pelos utilizadores, mas tendem a ser muito interessantes e matizados.

P>Pode navegar pelo subredito aqui. Também pode ver aqui os conjuntos de dados mais actualizados.

Ver Top /r/datasets Posts

Aqui estão alguns exemplos:

  • Todas as submissões de Reddit – contém submissões de Reddit até 2015.
  • Perguntas de Jeopardy – perguntas e valores de pontos do gamehow Jeopardy.
  • Dados de impostos sobre propriedades da cidade de Nova Iorque – dados sobre propriedades e valor avaliado em Nova Iorque.

Academic Torrents

Academic Torrents é um novo site orientado para a partilha dos conjuntos de dados de artigos científicos. É um sítio mais recente, por isso é difícil dizer como serão os tipos mais comuns de conjuntos de dados. Por enquanto, tem toneladas de conjuntos de dados interessantes que carecem de contexto.

P>É possível navegar directamente pelos conjuntos de dados no site. Uma vez que é um site torrent, todos os conjuntos de dados podem ser imediatamente descarregados, mas será necessário um cliente Bittorrent. Deluge é uma boa opção gratuita.

Ver conjuntos de dados de Torrentes Académicas

Aqui estão alguns exemplos:

  • emails da Enron – um conjunto de muitos emails de executivos da Enron, uma empresa que entrou em falência.
  • Factores de aprendizagem dos estudantes – um conjunto de factores que medem e influenciam a aprendizagem dos estudantes.
  • Artigos de notícias – contém atributos de artigos de notícias e uma variável alvo.

Bónus: Transmissão de dados

É muito comum quando se está a construir um projecto de ciência de dados para descarregar um conjunto de dados e depois processá-lo. Contudo, como os serviços em linha geram cada vez mais dados, uma quantidade crescente é gerada em tempo real, e não está disponível sob a forma de conjunto de dados. Alguns exemplos disto incluem dados sobre tweets do Twitter, e dados sobre preços de acções. Não há muitas boas fontes para adquirir este tipo de dados, mas listaremos algumas no caso de querer experimentar um projecto de streaming de dados.

Twitter

Twitter tem um bom API de streaming, e torna relativamente simples a filtragem e o streaming de tweets. Pode começar aqui. Há toneladas de opções aqui – pode descobrir quais são os estados mais felizes, ou quais os países que utilizam a linguagem mais complexa. Também escrevemos recentemente um artigo para começar com a API do Twitter aqui.

P>Comece com a API do Twitter

Github

Github tem uma API que lhe permite aceder à actividade de repositório e ao código. Pode começar a utilizar o API aqui. As opções são infinitas – pode construir um sistema para automaticamente pontuar a qualidade do código, ou descobrir como o código evolui ao longo do tempo em grandes projectos.

P>A começar com o Github API

Quantopian

Quantopian é um site onde pode desenvolver, testar e operacionalizar algoritmos de negociação de acções. A fim de o ajudar a fazê-lo, dão-lhe acesso a dados gratuitos minuto a minuto sobre os preços das acções. Pode construir um algoritmo de previsão de preço de acções.

P>A começar com Quantopian

Wunderground

Wunderground tem um API para previsões meteorológicas que liberta até 500 chamadas API por dia. Pode usar estas chamadas para construir um conjunto de dados meteorológicos históricos, e fazer previsões sobre o tempo amanhã.

P>Comece com a API do Wunderground

Bónus: Dados Pessoais

A Internet está cheia de conjuntos de dados fixes com os quais pode trabalhar. Mas para algo verdadeiramente único, que tal analisar os seus próprios dados pessoais? Aqui estão alguns sites populares que tornam possível descarregar e trabalhar com dados que gerou.

Amazon

Amazon permite-lhe descarregar os seus dados de gastos pessoais, histórico de encomendas, e muito mais. Para aceder, clique neste link (terá de estar ligado para poder trabalhar) ou navegue para o botão Contas e Listas, no canto superior direito. Na página seguinte, procure a secção Encomendas e Preferências de Compra, e clique no link sob o título que diz “Descarregar relatórios de encomendas”.

Aqui está um simples tutorial de projecto de dados que pode fazer usando os seus próprios dados Amazon para analisar os seus hábitos de despesa.

Facebook

Facebook também lhe permite descarregar os seus dados de actividade pessoal. Para aceder, clique neste link (terá de estar ligado para que funcione) e seleccione os tipos de dados que gostaria de descarregar.

Aqui está um exemplo de um simples projecto de dados que poderia construir usando os seus próprios dados pessoais do Facebook.

Netflix

Netflix permite-lhe solicitar os seus próprios dados para descarregar, embora isso o faça saltar por alguns obstáculos, e avisa que o processo de recolha dos seus dados pode demorar 30 dias. Desde a última vez que verificámos, os dados que lhe permitem descarregar são bastante limitados, mas ainda podem ser adequados para alguns tipos de projectos e análises.

Neste post, cobrimos bons lugares para encontrar conjuntos de dados para qualquer tipo de projecto de ciência de dados. Esperamos que encontre algo interessante em que queira afundar os seus dentes!

Se acabar por construir um projecto, adoraríamos saber mais sobre ele. Por favor informe-nos!

Na Dataquest, os nossos projectos interactivos guiados são concebidos para o ajudar a começar a construir um portfólio de ciência de dados para demonstrar as suas competências aos empregadores e conseguir um emprego em dados. Se estiver interessado, pode inscrever-se e fazer o nosso primeiro módulo gratuitamente.

No Dataquest, os nossos projectos guiados interactivos são concebidos para o ajudar a começar a construir um portfólio de ciência de dados para demonstrar as suas competências aos empregadores e obter um emprego em dados. Se estiver interessado, pode inscrever-se e fazer o nosso primeiro módulo gratuitamente.

Se gostou disto, talvez queira ler os outros posts da nossa série ‘Build a Data Science Portfolio’:

  • Contagem de histórias com dados.
  • Como configurar um blogue de ciência de dados.
  • Construindo um projecto de aprendizagem de máquinas.
  • A chave para construir um portfólio de ciência de dados que lhe dará um trabalho.
  • Como apresentar o seu portfólio de ciência de dados no Github
p>Vik é o CEO e Fundador do Dataquest.

/div>

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *