Matemáticas simples en la red

Hay una pregunta frecuente a nuestro departamenteo de soporte "¿Cuánto tiempo tardaré en recopilar 10000 direcciones de correo válidas?"

No hay una respuesta general por los siguientes motivos:

Los resultados del trabajo de EmEx3depende de sus orígenes de búsqueda

EmEx3 procesa el documento indicado y sus enlaces. Si la información requerida está presente, EmEx la extraerá. Pero si la información no está presente, no hay ninguna posibilidad de encontrarla y extraerla

Tal vez sólo un documento contenga esta información, pero es posible recogerlo de varios miles de páginas

De esta forma todo depende de su know-how para configurar el software, la información sobre el origen de la búsqueda y la existencia de la información requerida en el origen mencionado

La velocidad de procesamiento depende de su conexión a Internet y del canal de su ISP.

Tan solo hay que usar matemáticas básicas.

Suponga que su velocidad de conexión es de 512 Kb/s. Esto significa que puede descargar los ficheros y documentos con una velocidad máxima teórica de 64 Kb/s.Una página moderna HTML tiene un peso promedio de 159 Kb.Así que debe emplear 2-3 segundos para cada página descargada.

Si ejecutamos 10 flujos de descarga simultáneos, cada uno de ellos no podrá tener más velocidad de 64 Kb/s, ya que es una limitación de nuestro canal.
Recuerde que las condiciones ideales son el procesamiento de una página en 2-3 segundos. Así que para el procesamiento de 100 páginas son necesarios 200-300 segundos.

Tenga en cuenta que el servidor requiere algún tiempo y tráfico saliente (~10-20%) para comenzar a transferir la página solicitada.Desde el momento en que se realiza la petición de la página, hasta que se inicia la descarga, es necesario enviar información al servidor (petición HTTP) y recibir la respuesta (cabeceras HTTP). La transferencia de la página a su equipo tan solo se iniciará despues de eso.

Pero hay otros parámetros: capacidad usada del canal y velocidad de respuesta del servidor.

Al final tardamos cerca de 200-300 segundos en el mejor caso, y 500 en la realidad con una conexión de 512Kb/s.

Proporcionamos diferentes esquemas para aumentar la velocidad de trabajo de EmEx.Este es el modo distribuido de escaneo, usando servidores proxy, etc.Pruebe las distintas opciones, encuentre la más adecuada para su caso.