📂 Nivel 4: Trabajando con data.txt - Aplicación Práctica

¡Es hora de poner en práctica lo aprendido con nuestro archivo data.txt! Este archivo contiene:

  • Casi 2 millones de líneas de texto diverso
  • Ejemplos reales de emails, fechas, URLs
  • Datos estructurados y no estructurados
  • Caracteres especiales y patrones ocultos

🔍 Cómo usar data.txt en Sublime Text

  1. Abre el archivo en Sublime Text
  2. Activa búsqueda regex (Ctrl+F/Cmd+F + botón .*)
  3. Prueba estos patrones:

🎯 Ejercicios Básicos

1. Encontrar todos los emails:
   \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b

2. Localizar fechas en formato YYYY-MM-DD:
   \d{4}-\d{2}-\d{2}

3. Buscar números de teléfono:
   (\+\d{1,3}\s?)?(\(\d{3}\)|\d{3})[\s.-]?\d{3}[\s.-]?\d{4}

📊 Análisis de Datos Avanzado

Ejemplo 1: Extraer dominios web

https?://([\w-]+\.)+[\w-]+

Ejemplo 2: Encontrar líneas problemáticas

^.*[^\x00-\x7F].*$  # Líneas con caracteres no-ASCII
^.{100,}$           # Líneas muy largas (>100 caracteres)
^\s*$               # Líneas vacías o con espacios

💾 Dataset data.txt - Estructura Ejemplo

user1@example.com | 2023-04-15 | +1 (555) 123-4567
https://example.com | 日本語のテキスト | special@domain.co
Lorem ipsum... [500k+ líneas más]

🛠 Técnicas Profesionales

  1. Validación masiva:

    • Usa Ctrl+H para buscar/reemplazar
    • Ejemplo: Normalizar fechas:
      Buscar: (\d{2})/(\d{2})/(\d{4})
      Reemplazar: \3-\2-\1
  2. Extracción de datos:

    • Resalta con Alt+Enter
    • Copia sólo las coincidencias

Tip Pro: Guarda tus patrones frecuentes en un snippet de Sublime Text para reutilizarlos. 😊