Galileo Computing < openbook > Galileo Computing - Professionelle Bücher. Auch für Einsteiger.
Professionelle Bücher. Auch für Einsteiger.

Inhaltsverzeichnis
Vorwort
1 Java ist auch eine Sprache
2 Sprachbeschreibung
3 Klassen und Objekte
4 Der Umgang mit Zeichenketten
5 Mathematisches
6 Eigene Klassen schreiben
7 Angewandte Objektorientierung
8 Exceptions
9 Generics, innere Klassen
10 Die Klassenbibliothek
11 Threads und nebenläufige Programmierung
12 Datenstrukturen und Algorithmen
13 Raum und Zeit
14 Dateien und Datenströme
15 Die eXtensible Markup Language (XML)
16 Grafische Oberflächen mit Swing
17 Grafikprogrammierung
18 Netzwerkprogrammierung
19 Verteilte Programmierung mit RMI und Web–Services
20 JavaServer Pages und Servlets
21 Applets
22 Midlets und die Java ME
23 Datenbankmanagement mit JDBC
24 Reflection und Annotationen
25 Logging und Monitoring
26 Sicherheitskonzepte
27 Java Native Interface (JNI)
28 Dienstprogramme für die Java-Umgebung
Stichwort

Download:
- ZIP, ca. 14,1 MB
Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Java ist auch eine Insel (8. Auflage) von Christian Ullenboom
Programmieren mit der Java Standard Edition Version 6
Buch: Java ist auch eine Insel (8. Auflage)

Java ist auch eine Insel (8. Aufl.)
8., aktual. Auflage, geb., mit DVD
1.475 S., 49,90 Euro
Galileo Computing
ISBN 978-3-8362-1371-4
Pfeil 15 Die eXtensible Markup Language (XML)
Pfeil 15.1 Auszeichnungssprachen
Pfeil 15.1.1 Die Standard Generalized Markup Language (SGML)
Pfeil 15.1.2 Extensible Markup Language (XML)
Pfeil 15.2 Eigenschaften von XML-Dokumenten
Pfeil 15.2.1 Elemente und Attribute
Pfeil 15.2.2 Beschreibungssprache für den Aufbau von XML-Dokumenten
Pfeil 15.2.3 Schema – eine Alternative zu DTD
Pfeil 15.2.4 Namensraum (Namespace)
Pfeil 15.2.5 XML-Applikationen
Pfeil 15.3 Die Java-APIs für XML
Pfeil 15.3.1 Das Document Object Model (DOM)
Pfeil 15.3.2 Simple API for XML Parsing (SAX)
Pfeil 15.3.3 Pull-API StAX
Pfeil 15.3.4 Java Document Object Model (JDOM)
Pfeil 15.3.5 JAXP als Java-Schnittstelle zu XML
Pfeil 15.3.6 DOM-Bäume einlesen mit JAXP
Pfeil 15.4 Serielle Verarbeitung mit StAX
Pfeil 15.4.1 Unterschiede der Verarbeitungsmodelle
Pfeil 15.4.2 XML-Dateien mit dem Cursor-Verfahren lesen
Pfeil 15.4.3 XML-Dateien mit dem Iterator-Verfahren verarbeiten
Pfeil 15.4.4 Mit Filtern arbeiten
Pfeil 15.4.5 XML-Dokumente schreiben
Pfeil 15.5 Serielle Verarbeitung von XML mit SAX
Pfeil 15.5.1 Schnittstellen von SAX
Pfeil 15.5.2 SAX-Parser erzeugen
Pfeil 15.5.3 Operationen der Schnittstelle ContentHandler
Pfeil 15.5.4 ErrorHandler und EntityResolver
Pfeil 15.6 XML-Dateien mit JDOM verarbeiten
Pfeil 15.6.1 JDOM beziehen
Pfeil 15.6.2 Paketübersicht
Pfeil 15.6.3 Die Document-Klasse
Pfeil 15.6.4 Eingaben aus der Datei lesen
Pfeil 15.6.5 Das Dokument im XML-Format ausgeben
Pfeil 15.6.6 Der Dokumenttyp
Pfeil 15.6.7 Elemente
Pfeil 15.6.8 Zugriff auf Elementinhalte
Pfeil 15.6.9 Liste mit Unterelementen erzeugen
Pfeil 15.6.10 Neue Elemente einfügen und ändern
Pfeil 15.6.11 Attributinhalte lesen und ändern
Pfeil 15.6.12 XPath
Pfeil 15.7 Transformationen mit XSLT
Pfeil 15.7.1 Templates und XPath als Kernelemente von XSLT
Pfeil 15.7.2 Umwandlung von XML-Dateien mit JDOM und JAXP
Pfeil 15.8 Java Architecture for XML Binding (JAXB)
Pfeil 15.8.1 Beans für JAXB aufbauen
Pfeil 15.8.2 JAXBContext und die Marshaller/Unmarshaller
Pfeil 15.8.3 Weitere JAXB-Annotationen
Pfeil 15.9 HTML-Dokumente einlesen
Pfeil 15.10 Zum Weiterlesen


Galileo Computing - Zum Seitenanfang

15.9 HTML-Dokumente einlesen topZur vorigen Überschrift

Liegt ein HTML-Dokument als DOM-Baum vor, hätte das den Vorteil, dass sich das HTML-Dokument einfach untersuchen – etwa mit XPath – oder leicht konvertieren ließe. Das Problem dabei ist nur, dass HTML-Dokumente oft nicht XML-konform sind, also Fehler enthalten. Beim Einlesen würde der strenge XML-Parser Fehler melden und abbrechen.

JTidy

Für HTML-Dokumente, die nicht ganz XML-rein sind, gibt es mit JTidy (http://jtidy.sourceforge.net/) eine freie Bibliothek, die HTML-Dokumente einliest, Fehler (soweit möglich) korrigiert und das XML-Dokument als ordentlichen DOM-Baum repräsentiert. Die Benutzung ist einfach:

Tidy tidy = new Tidy(); 
// tidy.setMakeClean( true );   // Ohne Störungen 
// tidy.setXmlTags( true );     // Eingabe als XML behandeln 
org.w3c.dom.Document node = tidy.parseDOM( in, null );

in steht für einen InputStream, der die Daten bereitstellt. Neben parseDOM(), das ein org.w3c.dom.Document liefert, gibt es auch parse(), dass das Wurzelelement als org.w3c.tidy.Node liefert. Der zweite Parameter von parseDOM() – in unserem Beispiel mit null belegt – steht für ein Ausgabe-Objekt. Wird auf dem Tidy-Objekt die Methode parseXXX(in, out) aufgerufen, so schreibt JTidy einen korrekten XML-Strom in das gegebene OutputStream-Objekt. Unter http://jtidy.sourceforge.net/apidocs/index.html ist die API-Dokumentation verfügbar. Die Lizenz von JTidy ist zwar keine übliche, wie GPL oder Apache, aber trotzdem lässt sich die Bibliothek frei verwenden.

CyberNeko

In einigen Fällen zickt auch JTidy und bricht mit vielen Meldungen ab. Für diesen Fall bietet sich eine Alternative an: der HTML-Parser CyberNeko (http://people.apache.org/~andyc/neko/doc/html/index.html).

InputStream in = new FileInputStream( path ); 
org.cyberneko.html.parsers.DOMParser parser = 
                                 new org.cyberneko.html.parsers.DOMParser(); 
parser.parse( new InputSource(in) );

Um das XML-Dokument als JDOM-Document weiterzuverarbeiten, nutzen wir einen DOMBuilder:

DOMBuilder builder = new DOMBuilder(); 
org.jdom.Document document = builder.build( parser.getDocument() );

HtmlCleaner

Der HtmlCleaner (http://htmlcleaner.sourceforge.net/) ist eine Bibliothek unter der BSD-Lizenz, die mit Zeilen wie den folgenden eine Eingabe in einen String, Ausgabestrom oder DOM-Baum überträgt:

HtmlCleaner cleaner = new HtmlCleaner( input ); 
String s = cleaner.getCompactXmlAsString(); 
cleaner.writeXmlToStream( outputStream ); 
org.w3c.dom.Document dom1 = cleaner.createDOM(); 
org.jdom.Document dom2 = cleaner.createJDom();

Der HtmlCleaner kommt ebenfalls mit einem Kommandozeilenprogramm und Ant-Task daher.



Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.






<< zurück
  Zum Katalog
Zum Katalog: Java ist auch eine Insel





Java ist auch eine Insel
Jetzt bestellen


 Ihre Meinung?
Wie hat Ihnen das <openbook> gefallen?
Ihre Meinung

 Tipp
Zum Katalog: Coding for Fun





 Coding for Fun


 Buchempfehlungen
Zum Katalog: Objektorientierte Programmierung





 Objektorientierte
 Programmierung


Zum Katalog: Einstieg in Eclipse 3.4






 Einstieg in
 Eclipse 3.4


Zum Katalog: Java 6 lernen mit Eclipse






 Java 6 lernen
 mit Eclipse


Zum Katalog: NetBeans Platform 6






 NetBeans
 Platform 6


Zum Katalog: Java und XML






 Java und XML


Zum Katalog: Visual C# 2008






 Visual C# 2008


Zum Katalog: IT-Handbuch für Fachinformatiker






 IT-Handbuch für
 Fachinformatiker


Zum Katalog: C++ von A bis Z






 C++ von A bis Z


 Shopping
Versandkostenfrei bestellen in Deutschland und Österreich
InfoInfo




Copyright © Galileo Press 2009
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das <openbook> denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.


[Galileo Computing]

Galileo Press, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, info@galileo-press.de