El paquete web_scraping
contiene una colección de módulos para realizar web scraping de páginas HTML. Utiliza tanto técnicas básicas con expresiones regulares como el popular módulo BeautifulSoup
para facilitar la extracción de datos relevantes de contenido web.
- Python: Lenguaje de programación utilizado para el desarrollo del paquete.
- BeautifulSoup: Biblioteca para el análisis de documentos HTML y XML.
- urllib3: Biblioteca para realizar solicitudes HTTP.
El paquete web_scraping
permite a los usuarios:
- Extraer datos específicos de páginas web, como listas y títulos.
- Procesar contenido HTML local y remoto de manera eficiente.
- Manejar solicitudes HTTP para obtener el contenido de diferentes URLs.
El paquete web_scraping
contiene los siguientes módulos:
expresiones_regulares.py
: Funciones que utilizan expresiones regulares para procesar contenido de archivos HTML locales.expresiones_regulares2.py
: Extrae elementos<li>
de una página web utilizando expresiones regulares.parsear_contenido_sin_modulos.py
: Implementa la claseGobeaSoup
para manejar solicitudes HTTP y análisis de páginas web.parsear_facil.py
: Extrae elementos<li>
de un archivo HTML local sin módulos adicionales.sin_modulos.py
: Realiza una solicitud HTTP y guarda el contenido HTML en un archivo local.titulos_web.py
: Extrae los elementos<title>
de un archivo HTML.using_bs.py
: Utiliza BeautifulSoup para extraer URLs de scripts de una página web.
The web_scraping
package contains a collection of modules for web scraping HTML pages. It uses both basic techniques with regular expressions and the popular BeautifulSoup
module to facilitate the extraction of relevant data from web content.
- Python: The programming language used for package development.
- BeautifulSoup: Library for parsing HTML and XML documents.
- urllib3: Library for making HTTP requests.
The web_scraping
package allows users to:
- Extract specific data from web pages, such as lists and titles.
- Efficiently process local and remote HTML content.
- Handle HTTP requests to obtain content from various URLs.
The web_scraping
package includes the following modules:
expresiones_regulares.py
: Functions that use regular expressions to process content from local HTML files.expresiones_regulares2.py
: Extracts<li>
elements from a web page using regular expressions.parsear_contenido_sin_modulos.py
: Implements theGobeaSoup
class to handle HTTP requests and analyze web pages.parsear_facil.py
: Extracts<li>
elements from a local HTML file without additional modules.sin_modulos.py
: Makes an HTTP request and saves the HTML content to a local file.titulos_web.py
: Extracts<title>
elements from an HTML file.using_bs.py
: Uses BeautifulSoup to extract script URLs from a web page.