En este módulo del Diplomado en Ciencia de Datos UC aprenderemos a implementar la técnica de extracción de datos conocida como web scraping usando la librería Beautiful Soup. Las sesiones serán en modalidad online, los días 10 y 17 de junio.
Para realizar las actividades planificadas necesitarás las librerías request
, beautifulsoup4
y pandas
. Se pueden instalar desde PyPI con pip
.
pip install beautifulsoup4
pip install requests
pip install pandas
pip install lxml
Si prefieres trabajar en Google Colab, no olvides agregar un signo de exclamación al inicio de cada línea para su instalación, es decir:
!pip install beautifulsoup4
!pip install requests
!pip install pandas
!pip install lxml
Esto le indica a Google Colab que ese no es código de Python, sino código que tiene que ejecutarse en la Terminal.
Si trabajas en Visual Studio Code, es necesario que crees un entorno virtual. Durante la primera clase mostraremos cómo hacerlo. También puedes revisar las indicaciones en este documento.
Los siguientes atajos de teclado serán útiles al explorar las páginas web que escrapearemos.
Acción | Windows / Linux | Mac |
---|---|---|
Ver el código fuente | ctrl + u | command + u |
Abrir el panel de desarrollo | F12 ctrl + shift + i |
F12 option + command +i |
Abrir el panel de desarrollo con la opción de selección activada | ctrl + shift + c | option/ctrl + command + c |
A lo largo de la sesión revisaremos algunos sitios web a modo de ejemplo o para discutir algunas ideas. Los compartiremos por el chat de Zoom y quedarán acá también como referencia.
🔗 Licenciamiento y uso del contenido 1
🔗 Licenciamiento y uso del contenido 2
Durante las dos sesiones del módulo realizaremos una serie de actividades para poner en práctica lo aprendido. Iremos escribiendo el código "en vivo" en la clase, por lo que el contenido de los archivos con código se irá actualizando a medida que escribamos en ellos.
🔗 Página web ejemplo 1 / Página web ejemplo 2
🖥️ Video sobre uso de try/except en nuestro código de descarga
🔗 Página web ejemplo a / Página web ejemplo b