馃搨 Nivel 4: Trabajando con data.txt - Aplicaci贸n Pr谩ctica

隆Es hora de poner en pr谩ctica lo aprendido con nuestro archivo data.txt! Este archivo contiene:

  • Casi 2 millones de l铆neas de texto diverso
  • Ejemplos reales de emails, fechas, URLs
  • Datos estructurados y no estructurados
  • Caracteres especiales y patrones ocultos

馃攳 C贸mo usar data.txt en Sublime Text

  1. Abre el archivo en Sublime Text
  2. Activa b煤squeda regex (Ctrl+F/Cmd+F + bot贸n .*)
  3. Prueba estos patrones:

馃幆 Ejercicios B谩sicos

1. Encontrar todos los emails:
   \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b

2. Localizar fechas en formato YYYY-MM-DD:
   \d{4}-\d{2}-\d{2}

3. Buscar n煤meros de tel茅fono:
   (\+\d{1,3}\s?)?(\(\d{3}\)|\d{3})[\s.-]?\d{3}[\s.-]?\d{4}

馃搳 An谩lisis de Datos Avanzado

Ejemplo 1: Extraer dominios web

https?://([\w-]+\.)+[\w-]+

Ejemplo 2: Encontrar l铆neas problem谩ticas

^.*[^\x00-\x7F].*$  # L铆neas con caracteres no-ASCII
^.{100,}$           # L铆neas muy largas (>100 caracteres)
^\s*$               # L铆neas vac铆as o con espacios

馃捑 Dataset data.txt - Estructura Ejemplo

user1@example.com | 2023-04-15 | +1 (555) 123-4567
https://example.com | 鏃ユ湰瑾炪伄銉嗐偔銈广儓 | special@domain.co
Lorem ipsum... [500k+ l铆neas m谩s]

馃洜 T茅cnicas Profesionales

  1. Validaci贸n masiva:

    • Usa Ctrl+H para buscar/reemplazar
    • Ejemplo: Normalizar fechas:
      Buscar: (\d{2})/(\d{2})/(\d{4})
      Reemplazar: \3-\2-\1
  2. Extracci贸n de datos:

    • Resalta con Alt+Enter
    • Copia s贸lo las coincidencias

Tip Pro: Guarda tus patrones frecuentes en un snippet de Sublime Text para reutilizarlos. 馃槉