Join FlipAndroid.COM Telegram Group: https://t.me/joinchat/F_aqThGkhwcLzmI49vKAiw


Raspado html generado dinámicamente dentro de la aplicación para Android

Actualmente estoy escribiendo una aplicación para Android que, entre otras cosas, usa información de texto de sitios web que no poseo. Además, algunas de las páginas requieren autenticación.

Para algunas páginas he podido iniciar sesión y recuperar el código html usando BasicNameValuePairs y un HTTPClient con sus objetos asociados.

Desafortunadamente, estos métodos recuperan el origen de la página web sin ejecutar ninguna función javascript que un navegador (Android Webview incluso) normalmente se ejecuta. Necesito el texto que algunos de estos scripts están recuperando.

He hecho mi investigación, pero todo lo que he encontrado es conjetura y extremadamente confuso. Estoy bien con ignorar las páginas que requieren login por ahora. Además, estoy dispuesto a publicar cualquier código que pueda ser útil para construir una solución; Es un proyecto independiente.

¿Alguna solución concreta para raspar el resultado html de las llamadas javascript? Un ejemplo sería absolutamente de primera categoría.

    2 Solutions collect form web for “Raspado html generado dinámicamente dentro de la aplicación para Android”

    Las soluciones mencionadas son muy lentas y te restringen a 1 url (bueno, no realmente, pero me atrevo a raspar 10 urls con Rhino mientras tu usuario está esperando impacientemente los resultados).

    Una alternativa es usar una solución de raspado de nubes. Usted obtiene el beneficio de no perder el ancho de banda del teléfono en la descarga de contenido que no va a utilizar.

    Pruebe esta solución: Bobik Java SDK

    Le da la capacidad de raspar hasta cientos de sitios en cuestión de segundos

    Éxito final:

    • Rinoceronte. Utilizamos este archivo jar .

    Otras cosas que probé:

    • HttpClient proporcionado por Android
      • No se puede ejecutar javascript
    • HtmlUnit
      • 4 horas, sin éxito. También enorme, añadió 12 mb a mi apk.
    • SL4A
      • Finalmente compilado. Utilizó esta guía para configurar. Abandonado como exceso para un simple frasco de rinoceronte.

    Cosas Que Podrían Trabajar:

    • Selenio

    Se publicarán más resultados. Otros resultados se agregarán si se publican.

    Nota: muchas de las opciones mencionadas anteriormente se refieren entre sí. Creo que el rinoceronte está incluido en sl4a y htmlunit. Además, creo que htmlunit contiene selenio.

      FlipAndroid es un fan de Google para Android, Todo sobre Android Phones, Android Wear, Android Dev y Aplicaciones para Android Aplicaciones.