21 lugares para encontrar conjuntos de datos gratuitos para proyectos de ciencia de datos

Si alguna vez has trabajado en un proyecto personal de ciencia de datos, probablemente hayas pasado mucho tiempo navegando por Internet en busca de conjuntos de datos interesantes para analizar. Puede ser divertido escudriñar docenas de conjuntos de datos para encontrar el perfecto, pero también puede ser frustrante descargar e importar varios archivos CSV, sólo para darse cuenta de que los datos no son tan interesantes después de todo. Por suerte, hay repositorios en línea que curan los conjuntos de datos y (en su mayoría) eliminan los que no son interesantes.

En este post, recorreremos varios tipos de proyectos de ciencia de datos, incluyendo proyectos de visualización de datos, proyectos de limpieza de datos y proyectos de aprendizaje automático, e identificaremos buenos lugares para encontrar conjuntos de datos para cada uno. Tanto si quieres fortalecer tu cartera de ciencia de datos demostrando que puedes visualizar bien los datos, como si tienes unas horas libres y quieres practicar tus habilidades de aprendizaje automático, te tenemos cubierto.

Pero primero, vamos a responder a un par de preguntas rápidas y fundamentales:

¿Qué es un conjunto de datos?

Un conjunto de datos, o conjunto de datos, es simplemente una colección de datos.

El formato más simple y más común para los conjuntos de datos que encontrará en línea es una hoja de cálculo o formato CSV – un único archivo organizado como una tabla de filas y columnas. Pero algunos conjuntos de datos se almacenan en otros formatos, y no tienen por qué ser un solo archivo. A veces, un conjunto de datos puede ser un archivo zip o una carpeta que contiene varias tablas de datos con datos relacionados.

¿Cómo se crean los conjuntos de datos?

Los distintos conjuntos de datos se crean de diferentes maneras. En este post, encontrarás enlaces a fuentes con todo tipo de conjuntos de datos. Algunos serán datos generados por máquinas. Algunos serán datos recogidos a través de encuestas. Algunos pueden ser datos registrados a partir de observaciones humanas. Algunos pueden ser datos que han sido extraídos de sitios web o extraídos a través de APIs.

Cuando se trabaja con un conjunto de datos, es importante tener en cuenta: ¿cómo se creó este conjunto de datos? ¿De dónde proceden los datos? No te lances directamente al análisis; tómate el tiempo necesario para entender primero los datos con los que estás trabajando.

Conjuntos de datos públicos para proyectos de visualización de datos

Un típico proyecto de visualización de datos podría ser algo parecido a “quiero hacer una infografía sobre cómo varían los ingresos en los diferentes estados de Estados Unidos”. Hay algunas consideraciones a tener en cuenta cuando se busca un buen conjunto de datos para un proyecto de visualización de datos:

  • No debería estar desordenado, porque no querrás pasar mucho tiempo limpiando datos.
  • Debería tener matices y ser lo suficientemente interesante como para hacer gráficos.
  • En realidad, cada columna debe estar bien explicada, para que la visualización sea precisa.
  • El conjunto de datos no debe tener demasiadas filas o columnas, para que sea fácil trabajar con él.
    • Un buen lugar para encontrar buenos conjuntos de datos para proyectos de visualización de datos son los sitios de noticias que publican sus datos. Por lo general, limpian los datos para usted, y también ya tienen gráficos que han hecho que usted puede replicar o mejorar.

      CincoTreintaOcho

      CincoTreintaOcho es un sitio de noticias y deportes interactivo increíblemente popular iniciado por Nate Silver. Escriben interesantes artículos basados en datos, como “No culpes a una brecha de habilidades por la falta de contratación en la industria manufacturera” y “Predicciones de la NFL para 2016”.

      FiveThirtyEight hace que los conjuntos de datos utilizados en sus artículos estén disponibles en línea en Github.

      Ver los conjuntos de datos de FiveThirtyEight

      Aquí hay algunos ejemplos:

      • Seguridad de las aerolíneas – contiene información sobre los accidentes de cada aerolínea.
      • Historia del tiempo en Estados Unidos – datos históricos del tiempo en Estados Unidos.
      • Drogas de estudio – datos sobre quiénes toman Adderall en Estados Unidos.

      BuzzFeed

      BuzzFeed comenzó como un proveedor de artículos de baja calidad, pero desde entonces ha evolucionado y ahora escribe algunos artículos de investigación, como “El tribunal que gobierna el mundo” y “La corta vida de Deonte Hoard”.

      BuzzFeed pone a disposición los conjuntos de datos utilizados en sus artículos en Github.

      Ver los conjuntos de datos de BuzzFeed

      Aquí tienes algunos ejemplos:

      • Aviones de vigilancia federal: contiene datos sobre los aviones utilizados para la vigilancia doméstica.
      • Virus del Zika – datos sobre la geografía del brote del virus del Zika.
      • Comprobación de antecedentes de armas de fuego – datos sobre la comprobación de los antecedentes de las personas que intentan comprar armas de fuego.
        • NASA

          La NASA es una organización gubernamental financiada con fondos públicos, y por tanto todos sus datos son públicos. Mantiene sitios web en los que cualquiera puede descargar sus conjuntos de datos relacionados con la ciencia de la tierra y conjuntos de datos relacionados con el espacio. Incluso se puede ordenar por formato en el sitio de ciencias de la tierra para encontrar todos los conjuntos de datos CSV disponibles, por ejemplo.

          Conjuntos de datos públicos para proyectos de procesamiento de datos

          A veces sólo se quiere trabajar con un gran conjunto de datos. El resultado final no importa tanto como el proceso de lectura y análisis de los datos. Podrías utilizar herramientas como Spark o Hadoop para distribuir el procesamiento en múltiples nodos. Cosas a tener en cuenta cuando se busca un buen conjunto de datos de procesamiento de datos:

          • Cuanto más limpios estén los datos, mejor – limpiar un gran conjunto de datos puede llevar mucho tiempo.
          • El conjunto de datos debe ser interesante.
          • Debe haber una pregunta interesante que pueda ser respondida con los datos.
          • Un buen lugar para encontrar grandes conjuntos de datos públicos son los proveedores de alojamiento en la nube como Amazon y Google. Tienen un incentivo para alojar los conjuntos de datos, porque te obligan a analizarlos utilizando su infraestructura (y les pagan).

            Conjuntos de datos públicos de Amazon

            Amazon pone a disposición grandes conjuntos de datos en su plataforma Amazon Web Services. Puedes descargar los datos y trabajar con ellos en tu propio ordenador, o analizar los datos en la nube utilizando EC2 y Hadoop a través de EMR. Puedes leer más sobre cómo funciona el programa aquí.

            Amazon tiene una página que enumera todos los conjuntos de datos para que puedas navegar. Necesitarás una cuenta de AWS, aunque Amazon te da un nivel de acceso gratuito para las nuevas cuentas que te permitirá explorar los datos sin que te cobren.

            Ver conjuntos de datos públicos de AWS

            Aquí tienes algunos ejemplos:

            • Listas de n-gramas de Google Books – palabras comunes y grupos de palabras de un enorme conjunto de libros.
            • Corpus de rastreo común: datos de un rastreo de más de 5.000 millones de páginas web.
            • Imágenes Landsat: imágenes de satélite de resolución moderada de la superficie de la Tierra.
              • Conjuntos de datos públicos de Google

                Al igual que Amazon, Google también tiene un servicio de alojamiento en la nube, llamado Google Cloud Platform. Con GCP, puedes utilizar una herramienta llamada BigQuery para explorar grandes conjuntos de datos.

                Google lista todos los conjuntos de datos en una página. Tendrás que registrarte para obtener una cuenta de GCP, pero los primeros 1TB de consultas que hagas son gratuitos.

                Ver conjuntos de datos públicos de Google

                Aquí tienes algunos ejemplos:

                • Nombres de Estados Unidos: contiene todas las solicitudes de nombres de la Seguridad Social en Estados Unidos, desde 1879 hasta 2015.
                • Actividad de Github – contiene toda la actividad pública en más de 2,8 millones de repositorios públicos de Github.
                • Histórico del tiempo – datos de 9000 estaciones meteorológicas de la NOAA desde 1929 hasta 2016.

                Wikipedia

                Wikipedia es una enciclopedia gratuita, online y editada por la comunidad. Wikipedia contiene una asombrosa amplitud de conocimientos, con páginas sobre todo tipo de temas, desde las Guerras Otomano-Habsburgo hasta Leonard Nimoy. Como parte del compromiso de Wikipedia con el avance del conocimiento, ofrece todo su contenido de forma gratuita y genera regularmente volcados de todos los artículos del sitio. Además, Wikipedia ofrece el historial de ediciones y la actividad, por lo que puedes seguir la evolución de una página sobre un tema a lo largo del tiempo, y quién contribuye a ella.

                Puedes encontrar las distintas formas de descargar los datos en el sitio de Wikipedia. También encontrarás scripts para reformatear los datos de varias maneras.

                Ver conjuntos de datos de Wikipedia

                Aquí tienes algunos ejemplos:

                • Todas las imágenes y otros medios de Wikipedia – todas las imágenes y otros archivos multimedia de Wikipedia.
                • Volcados completos del sitio – del contenido en Wikipedia, en varios formatos.
                  • Conjuntos de datos públicos para proyectos de aprendizaje automático

                    Cuando estás trabajando en un proyecto de aprendizaje automático, quieres ser capaz de predecir una columna a partir de las otras columnas de un conjunto de datos. Para poder hacer esto, tenemos que asegurarnos de que:

                    • El conjunto de datos no está demasiado desordenado – si lo está, gastaremos todo nuestro tiempo limpiando los datos.
                    • Hay una columna objetivo interesante para hacer predicciones.
                    • Las otras variables tienen algún poder explicativo para la columna objetivo.
                      • Hay algunos repositorios online de conjuntos de datos que son específicamente para el aprendizaje automático. Estos conjuntos de datos suelen estar limpios de antemano y permiten probar los algoritmos muy rápidamente.

                        Kaggle

                        Kaggle es una comunidad de ciencia de datos que alberga competiciones de aprendizaje automático. Hay una variedad de conjuntos de datos interesantes aportados externamente en el sitio. Kaggle tiene tanto competiciones en vivo como históricas. Puedes descargar datos para cualquiera de ellas, pero tienes que registrarte en Kaggle y aceptar los términos de servicio de la competición.

                        Puedes descargar datos de Kaggle entrando en una competición. Cada competición tiene su propio conjunto de datos asociado. También hay conjuntos de datos aportados por los usuarios que se encuentran en la nueva oferta de conjuntos de datos de Kaggle.

                        Ver conjuntos de datos de KaggleVer competiciones de Kaggle

                        Aquí hay algunos ejemplos:

                        • Orden de fotografías de satélite – un conjunto de datos de fotos de satélite de la Tierra – el objetivo es predecir qué fotos se tomaron antes que otras.
                        • Fallos en el proceso de fabricación – un conjunto de datos de variables que se midieron durante el proceso de fabricación. El objetivo es predecir los fallos de fabricación.
                        • Preguntas de opción múltiple – un conjunto de datos de preguntas de opción múltiple y las correspondientes respuestas correctas. El objetivo es predecir la respuesta para cualquier pregunta.

                        Repositorio de Aprendizaje Automático de la UCI

                        El Repositorio de Aprendizaje Automático de la UCI es una de las fuentes más antiguas de conjuntos de datos en la web. Aunque los conjuntos de datos son aportados por los usuarios, y por lo tanto tienen diferentes niveles de documentación y limpieza, la gran mayoría están limpios y listos para aplicar el aprendizaje automático. La UCI es una gran primera parada cuando se buscan conjuntos de datos interesantes.

                        Se pueden descargar datos directamente desde el repositorio de aprendizaje automático de la UCI, sin necesidad de registrarse. Estos conjuntos de datos tienden a ser bastante pequeños, y no tienen muchos matices, pero son buenos para el aprendizaje automático.

                        Ver el Repositorio de Aprendizaje Automático de la UCI

                        Aquí hay algunos ejemplos:

                        • Spam de correo electrónico – contiene correos electrónicos, junto con una etiqueta de si son o no spam.
                        • Clasificación de vinos – contiene varios atributos de 178 vinos diferentes.
                        • Bengalas solares – atributos de las bengalas solares, útiles para predecir las características de las mismas.

                        Quandl

                        Quandl es un repositorio de datos económicos y financieros. Parte de esta información es gratuita, pero muchos conjuntos de datos requieren ser comprados. Quandl es útil para construir modelos de predicción de indicadores económicos o de precios de las acciones. Debido a la gran cantidad de conjuntos de datos disponibles, es posible construir un modelo complejo que utilice muchos conjuntos de datos para predecir valores en otro.

                        Ver conjuntos de datos de Quandl.

                        Aquí hay algunos ejemplos:

                        • Actividad emprendedora por raza y otros factores: contiene datos de la fundación Kauffman sobre emprendedores en Estados Unidos.
                        • Datos macroeconómicos chinos – indicadores de la salud económica de China.
                        • Datos de la Reserva Federal de EE.UU. – indicadores económicos de EE.UU., procedentes de la Reserva Federal.
                          • Conjuntos de datos públicos para proyectos de limpieza de datos

                            A veces, puede ser muy satisfactorio tomar un conjunto de datos repartidos en varios archivos, limpiarlos, condensarlos en uno solo y luego hacer algún análisis. En los proyectos de limpieza de datos, a veces se necesitan horas de investigación para averiguar qué significa cada columna del conjunto de datos. A veces puede resultar que el conjunto de datos que está analizando no es realmente adecuado para lo que está tratando de hacer, y tendrá que empezar de nuevo.

                            Cuando busque un buen conjunto de datos para un proyecto de limpieza de datos, querrá que:

                            • Esté repartido en múltiples archivos.
                            • Tener muchos matices, y muchos ángulos posibles para tomar.
                            • Requerir una buena cantidad de investigación para entender.
                            • Ser tan “del mundo real” como sea posible.
                            • Este tipo de conjuntos de datos se encuentran típicamente en agregadores de conjuntos de datos. Estos agregadores tienden a tener conjuntos de datos de múltiples fuentes, sin mucha curación. Demasiada curación nos da conjuntos de datos demasiado ordenados que son difíciles de hacer una limpieza extensa.

                              data.world

                              data.world se describe a sí misma como “la red social para la gente de los datos”, pero podría describirse más correctamente como “GitHub para los datos”. Es un lugar donde puedes buscar, copiar, analizar y descargar conjuntos de datos. Además, puedes subir tus datos a data.world y utilizarlos para colaborar con otros.

                              En un tiempo relativamente corto se ha convertido en uno de los lugares “a los que acudir” para adquirir datos, con multitud de conjuntos de datos aportados por los usuarios, así como fantásticos conjuntos de datos a través de data.world con varias organizaciones, incluyendo una gran cantidad de datos del Gobierno Federal de los Estados Unidos.

                              Un diferenciador clave de data.world son las herramientas que han construido para facilitar el trabajo con los datos – se pueden escribir consultas SQL dentro de su interfaz para explorar los datos y unir múltiples conjuntos de datos. También tienen SDK’s para R y python para facilitar la adquisición y el trabajo con los datos en su herramienta de elección (Puede que le interese leer nuestro tutorial sobre el SDK de Python de data.world.)

                              Ver conjuntos de datos de data.world

                              Data.gov

                              Data.gov es un sitio relativamente nuevo que forma parte de un esfuerzo de Estados Unidos por abrir el gobierno. Data.gov hace posible la descarga de datos de múltiples agencias gubernamentales estadounidenses. Los datos pueden abarcar desde los presupuestos del gobierno hasta los resultados de las escuelas. Muchos de los datos requieren una investigación adicional, y a veces puede ser difícil averiguar qué conjunto de datos es la versión “correcta”. Cualquiera puede descargar los datos, aunque algunos conjuntos de datos requieren que se salten aros adicionales, como aceptar acuerdos de licencia.

                              Puede navegar por los conjuntos de datos en Data.gov directamente, sin registrarse. Puede navegar por áreas temáticas o buscar un conjunto de datos específico.

                              Ver conjuntos de datos de Data.gov

                              Aquí hay algunos ejemplos:

                              • Atlas del entorno alimentario: contiene datos sobre cómo las elecciones alimentarias locales afectan a la dieta en EE.UU.
                              • Finanzas de los sistemas escolares: un estudio sobre las finanzas de los sistemas escolares en EE.UU.
                              • Datos sobre enfermedades crónicas: datos sobre indicadores de enfermedades crónicas en zonas de todo Estados Unidos.
                              • El Banco Mundial

                                El Banco Mundial es una organización de desarrollo global que ofrece préstamos y asesoramiento a los países en desarrollo. El Banco Mundial financia regularmente programas en los países en desarrollo, y luego recopila datos para supervisar el éxito de estos programas.

                                Puede navegar por los conjuntos de datos del Banco Mundial directamente, sin registrarse. Los conjuntos de datos tienen muchos valores que faltan, y a veces hay que hacer varios clics para llegar a los datos.

                                Ver conjuntos de datos del Banco Mundial

                                Aquí hay algunos ejemplos:

                                • Indicadores del Desarrollo Mundial – contiene información a nivel de país sobre el desarrollo.
                                • Estadísticas Educativas – datos sobre la educación por país.
                                • Costes de los proyectos del Banco Mundial – datos sobre los proyectos del Banco Mundial y sus correspondientes costes.
                                  • /r/datasets

                                    Reddit, un popular sitio de debate comunitario, tiene una sección dedicada a compartir conjuntos de datos interesantes. Se llama el subreddit datasets, o /r/datasets. El alcance de estos conjuntos de datos varía mucho, ya que todos son enviados por los usuarios, pero suelen ser muy interesantes y con muchos matices.

                                    Puedes navegar por el subreddit aquí. También puedes ver los conjuntos de datos más votados aquí.

                                    Ver los mejores posts de /r/datasets

                                    Aquí tienes algunos ejemplos:

                                    • Todos los envíos de Reddit – contiene envíos de reddit hasta 2015.
                                    • Preguntas de Jeopardy – preguntas y valores de puntos del gameshow Jeopardy.
                                    • Datos de los impuestos sobre la propiedad de la ciudad de Nueva York – datos sobre las propiedades y el valor tasado en la ciudad de Nueva York.
                                      • Academic Torrents

                                        Academic Torrents es un nuevo sitio que está orientado a compartir los conjuntos de datos de los artículos científicos. Es un sitio nuevo, así que es difícil saber cómo serán los tipos de conjuntos de datos más comunes. Por ahora, tiene toneladas de conjuntos de datos interesantes que carecen de contexto.

                                        Puedes navegar por los conjuntos de datos directamente en el sitio. Como es un sitio de torrents, todos los conjuntos de datos se pueden descargar inmediatamente, pero necesitarás un cliente Bittorrent. Deluge es una buena opción gratuita.

                                        Ver conjuntos de datos de Academic Torrents

                                        Aquí hay algunos ejemplos:

                                        • Correos electrónicos de Enron – un conjunto de muchos correos electrónicos de los ejecutivos de Enron, una empresa que famosamente quebró.
                                        • Factores de aprendizaje de los estudiantes – un conjunto de factores que miden e influyen en el aprendizaje de los estudiantes.
                                        • Artículos de noticias – contiene atributos de artículos de noticias y una variable objetivo.

                                        Bonus: Streaming de datos

                                        Es muy común cuando se construye un proyecto de ciencia de datos descargar un conjunto de datos y luego procesarlo. Sin embargo, a medida que los servicios en línea generan más y más datos, una cantidad cada vez mayor se genera en tiempo real, y no está disponible en forma de conjunto de datos. Algunos ejemplos de esto son los datos de los tweets de Twitter, y los datos de los precios de las acciones. No hay muchas fuentes buenas para adquirir este tipo de datos, pero vamos a enumerar algunas por si quieres probar tu mano en un proyecto de streaming de datos.

                                        Twitter

                                        Twitter tiene una buena API de streaming, y hace que sea relativamente sencillo filtrar y transmitir tweets. Puedes empezar aquí. Hay toneladas de opciones aquí – usted podría averiguar qué estados son los más felices, o qué países utilizan el lenguaje más complejo. También escribimos recientemente un artículo para empezar con la API de Twitter aquí.

                                        Empieza con la API de Twitter

                                        Github

                                        Github tiene una API que te permite acceder a la actividad del repositorio y al código. Puedes empezar con la API aquí. Las opciones son infinitas: podrías construir un sistema para puntuar automáticamente la calidad del código, o averiguar cómo evoluciona el código a lo largo del tiempo en grandes proyectos.

                                        Comienza con la API de Github

                                        Quantopian

                                        Quantopian es un sitio donde puedes desarrollar, probar y poner en funcionamiento algoritmos de negociación de acciones. Para ayudarte a hacerlo, te dan acceso a los datos de los precios de las acciones minuto a minuto de forma gratuita. Podrías construir un algoritmo de predicción del precio de las acciones.

                                        Comienza con Quantopian

                                        Wunderground

                                        Wunderground tiene una API para las previsiones meteorológicas que libera hasta 500 llamadas a la API por día. Podrías utilizar estas llamadas para construir un conjunto de datos meteorológicos históricos, y hacer predicciones sobre el tiempo que hará mañana.

                                        Comienza con la API de Wunderground

                                        Bonus: Datos personales

                                        Internet está lleno de conjuntos de datos geniales con los que puedes trabajar. Pero para algo realmente único, ¿qué tal analizar tus propios datos personales? Aquí hay algunos sitios populares que hacen posible descargar y trabajar con los datos que has generado.

                                        Amazon

                                        Amazon te permite descargar tus datos personales de gasto, historial de pedidos y más. Para acceder a ella, haz clic en este enlace (tendrás que estar conectado para que funcione) o navega hasta el botón de Cuentas y Listas en la parte superior derecha. En la siguiente página, busca la sección de Preferencias de pedidos y compras, y haz clic en el enlace bajo ese título que dice “Descargar informes de pedidos”.

                                        Aquí tienes un sencillo tutorial de proyecto de datos que podrías hacer utilizando tus propios datos de Amazon para analizar tus hábitos de gasto.

                                        Facebook

                                        Facebook también te permite descargar tus datos de actividad personal. Para acceder a ella, haz clic en este enlace (tendrás que haber iniciado sesión para que funcione) y selecciona los tipos de datos que te gustaría descargar.

                                        Aquí tienes un ejemplo de un sencillo proyecto de datos que podrías construir utilizando tus propios datos personales de Facebook.

                                        Netflix

                                        Netflix te permite solicitar tus propios datos para descargarlos, aunque te hará pasar por unos cuantos aros, y advierte que el proceso de cotejo de tus datos puede tardar 30 días. Desde la última vez que lo comprobamos, los datos que te permiten descargar son bastante limitados, pero aún podrían ser adecuados para algunos tipos de proyectos y análisis.

                                        En este post, hemos cubierto buenos lugares para encontrar conjuntos de datos para cualquier tipo de proyecto de ciencia de datos. Esperamos que encuentres algo interesante al que quieras hincarle el diente!

                                        Si acabas construyendo un proyecto, nos encantaría que nos lo contaras. En Dataquest, nuestros proyectos interactivos guiados están diseñados para ayudarte a construir un portafolio de ciencia de datos para demostrar tus habilidades a los empleadores y conseguir un trabajo en datos. Si estás interesado, puedes registrarte y hacer nuestro primer módulo gratis.

                                        En Dataquest, nuestros proyectos interactivos guiados están diseñados para ayudarte a empezar a construir un portafolio de ciencia de datos para demostrar tus habilidades a los empleadores y conseguir un trabajo en datos. Si te interesa, puedes inscribirte y hacer nuestro primer módulo de forma gratuita.

                                        Si te ha gustado esto, puede que te guste leer los otros posts de nuestra serie ‘Construye un portafolio de ciencia de datos’:

                                        • Cómo contar historias con datos.
                                        • Cómo configurar un blog de ciencia de datos.
                                        • Construir un proyecto de aprendizaje automático.
                                        • La clave para construir un portafolio de ciencia de datos que te haga conseguir un trabajo.
                                        • Cómo presentar tu portfolio de ciencia de datos en Github

                                        Vik es el CEO y fundador de Dataquest.

                                        .

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *