Usando MediaWiki para tirar de texto de una página de Wikia pero vuelve en un lío grande hay una mejor manera que podría hacer esto para tirar de texto de cada sección?

Estoy desarrollando una aplicación para Android que extrae información de una página de Wikia y la muestra en la aplicación. Actualmente estoy tirando de todas las categorías para navegar y tener mi aplicación configurada para mostrar la página en un WebView, pero me gustaría simplemente tirar de la información y el formato de mí mismo en lugar de reducirlo pasando a WebView.

Lo que estoy usando para obtener el texto es: http://scottlandminecraft.wikia.com/api.php?format=xml&action=query&titles=ZackScott&prop=revisions&rvprop=content

Mi problema es que el texto vuelve en un gran grupo, ¿alguien tiene alguna idea de cómo obtener este formato más para poder analizar las etiquetas o estoy perdiendo el tiempo tratando de encontrar eso? Si es así sería mejor encontrar una manera de analizar el texto que necesito al ir de los identificadores en el texto de este tira, o hay una mejor manera?

Gracias por su aportación y tiempo.

3 Solutions collect form web for “Usando MediaWiki para tirar de texto de una página de Wikia pero vuelve en un lío grande hay una mejor manera que podría hacer esto para tirar de texto de cada sección?”

La forma más fácil, si no quieres analizar el wiki, es recuperar la versión HTML analizada de la página y luego procesarla usando un analizador HTML (como jsoup , como recomienda Hasham).

Además de raspar la interfaz de usuario normal de wiki (que le dará la página HTML envuelta en el skin de navegación), hay dos maneras de obtener el texto HTML de una página de MediaWiki:

  1. Utilice la API con action=parse , que devolverá la página HTML envuelta en una respuesta de XML de la API de MediaWiki (o JSON / YAML / etc), como esto:

  2. O utilice el script principal index.php con action=render , que devolverá sólo la página HTML:

PD. Puesto que usted menciona secciones en su pregunta, permítanme tener en cuenta que el módulo de action=parse API puede devolver información sobre las secciones de la página usando prop=sections (o incluso prop=sections|text ). Para ver un ejemplo, consulte esta consulta de API:

El contenido se formatea utilizando la sintaxis wiki. Puedes hacerlo en HTML usando un motor Java llamado Bliki .

http://code.google.com/p/gwtwiki/

http://code.google.com/p/gwtwiki/wiki/Mediawiki2HTML

Bliki no se piensa para Android. Lo necesitas para compilarlo. Parece que se puede hacer:

https://groups.google.com/forum/?fromgroups=#!topic/bliki/LNsmnEEZEV4

Si desea analizar el documento html entonces Jsoup es la elección.

FlipAndroid es un fan de Google para Android, Todo sobre Android Phones, Android Wear, Android Dev y Aplicaciones para Android Aplicaciones.