Ingestando noticias de mi propia web (Text Analytics basics ) — NLP Series parte 2 | por Carlos Cortez | AI for Mortals

Carlos E. Cortez Bazan
4 min readApr 2, 2021

--

📢 📢 Let’s DIY (do it yourself):

De quiénes se ensucian las manos, ruedan en el barro, y se llenan de esa adrenalina de hacer las cosas tú mismo y no por un managed service de algún cloud provider. De quiénes pueden inventar sus propios métodos, sus propios principios y su propio camino. Yo te pregunto, ¿aún puedes seguir inventando si mezclas lo mejor de ambos mundos no?

Estas series son parte de una nueva sección llamada AI for Mortals, donde me incluyo con ustedes para enseñarles lo que voy aprendiendo.

Visitar AI for Mortals: (https://aiformortals.cortez.cloud)

🧩 Primero lo primero: A ingestar con nuestras propias manos

Generaremos una ingesta de datos con información propia, tomada de mi blog https://cortez.cloud, para obtener categorías, títulos, y descripciones de los posts publicados.

Si estuviésemos en un MMORPG , nuestro guerrero aún estaría en Level 1:

Hagámoslo lo más simple posible pero no Simplón — Albert Einstein

y recordando dónde nos encontramos en nuestro viaje en este mundo:

🧩 ¿Que usaremos?

Beautiful Soap, una librería de Python que nos ayudará a extraer data de la web, lo que llamamos “Web Scraping”

Veamos paso a paso que es lo que estamos haciendo aquí,

  1. Importamos nuestras librerías que usaremos durante todos los ejemplos desde hoy en adelante:

2. Definimos cuáles URLs vamos a usar:

3. Inspeccionamos y entendamos las etiquetas que existen en la web:

En una de las URLS, https://www.cortez.cloud/categories/awsugperu

Los títulos están en un <div class=”blog-title”>, y esto es lo que tenemos que ir buscando

4. Obtenemos palabras clave de las URLS como las categorías

5. Ahora bajamos toda la info y parseamos todo el HTML con Beautiful Soap. Parsing es un método de programación que nos permite analizar el HTML, pero también diferentes tipos de archivos como json.

6. Buscamos todo los divs que hemos ido encontrando para los títulos “headlines”, los blog posts “news_blog” y las categorías ya las tenemos .

7. Creamos nuestro Data Frame y colocamos toda la data encontrada y segmentada en 3 columnas:

8. Revisamos nuestra data recién salida del horno:

🧩 Ejercicio completo de este tutorial:

El código completo es el siguiente y lo puedes encontrar en mi github en Colab para que puedan editarlo y usarlo:

🧩 Casos de uso distintos y automatización

Pasémoslo a Funciones como Servicio usando AWS Lambda y empecemos a automatizar y crear nuestros propios pipelines de ingesta de datos.

Lo puedes replicar para hacer ingesta en Twitter o de cualquier otra red social y empezar a generar tus propios análisis.

Nosotros nos iremos por la rama de Procesamiento de lenguaje natural tanto con librerías open source como con Amazon Web Services

🧩 ¿Con qué continuamos?

Si en el próximo episodio, cambiamos de aires y nos vamos a Amazon Comprehend?

No se preocupen vamos paso a paso y alternando entre ambos caminos.

📢 📢 Spoiler alert:

Doble click a nuestro MMORPG , nuestro guerrero tiene la meta de llegar a level 5:

Siguiente post: (Al Aire el 05 de Abril)

Post Anterior: Empezando con nlp en AWS desde cero

Si te gustó este post, dale un like, comparte y comenta.

Estas series son parte de una nueva sección llamada AI for Mortals, donde me incluyo con ustedes para enseñarles lo que voy aprendiendo.

Visitar AI for Mortals: (https://aiformortals.cortez.cloud)

☢ Rompiendo se aprende

Suscríbete a mi canal, Breaking the Cloud y Al día con AWS en https://cortez.cloud

⭐Suscríbete a mi canal : http://bit.ly/aldiaconaws

videos, noticas de AWS, análisis, demos, workshops

🔥🔥 Sígueme en mis redes 🔥🔥

follow <- me()

🦜 Mi Twitter: https://twitter.com/ccortezb

📺 Youtube Channel: http://bit.ly/aldiaconaws

📺 AWSUGPerú: https://www.youtube.com/awsusergroupperuoficial

📟 Mi Facebook: https://www.facebook.com/ccortezb/

🤳 Mi Instagram: ccortezbazan

📜 Mis cursos de AWS: https://cennticloud.thinkific.com

🕮 Mi blog — cortez.cloud

Muchas gracias, espero nos volvamos a ver

🔥🔥 Acerca de mí 🔥🔥

Cortez.Cloud/whoami

Les presento mi pequeña web personal https://www.Cortez.Cloud llamado “Breaking the Cloud”.

Seguiré creando contenido cada semana de AWS sobre Al/ML, Serverless, Security y como romper las reglas!

También mis próximas iniciativas, talleres, cursos, videos gratuitos, awsugperu y más.

--

--

Carlos E. Cortez Bazan

AWS UG Leader Perú / AWS ML Community Builder / Senior Cloud Architect