
Texte bei der Ausgabe in ihrer Länge zu begrenzen ist nun wirklich eine immer wiederkehrende Aufgabe. Daher ist es nicht verwunderlich, dass es zahlreiche Funktionen gibt, die ein solches Abschneiden gewährleisten sollen. Aber was leisten diese Truncate Funktionen wirklich?
Die allgemeine Verfahrensweise solcher Funktionen ist denkbar einfach: Es muss zunächst getestet werden, ob ein String überhaupt länger ist, als die vorgegebene maximale Länge. Ist dieses der Fall, so wäre der String an entsprechender Stelle abzuschneiden, und diese Kürzung ggf. durch eine Zeichenfolge wie … zu kennzeichen. Nur was heisst an entprechender Stelle?
Basis vieler Truncate Funktionen in PHP ist die substr Funktion, über die sich ein beliebig langer Text an einer definierten Stelle abschneiden lässt. Berücksichtigt wird bei substr jedes Zeichen, ganz gleich ob es sich um Satzzeichen, Buchstaben oder Leerzeichen handelt.
Aus Gründen der Lesbarkeit kann es aber sinnvoller sein nicht exakt auf eine bestimmte Zahl an Einzelzeichen zu kürzen, sondern stattdessen das nächste Wort- oder Satzende zu finden. Ein Artikel bei the art of web liefert gleich eine ganze Reihe solcher Funktionen. Bei dieser Art von truncate Funktionen wird wahlweise mit einem regulären Ausdruck oder einer Kombination aus substr und strrpos gearbeitet.
Und was passiert, wenn es sich bei dem Text nicht um einfachen Plain-Text, sondern um eine HTML Struktur handelt? Schneidet man solche Texte an der falschen Stelle ab, kann es einem im schlimmsten Fall das gesamte Layout der Seite zerstören, man muss nur das Pech haben einen geöffneten Tag innerhalb der gekürzten Version zu haben, der nicht wieder geschlossen wird. Und selbst wenn das nicht der Fall sein sollte, so werden bei HTML Code die nicht dargestellten Tags als Zeichen mitgezählt, die ausgebene Länge entspricht also gar nicht der gewünschten maximalen Ausprägung. Auch ein Aufteilen eines solchen HTML-Textes an Leerzeichen hilft nicht – viele Tags enthalten Leerzeichen – die Konsequenz wäre damit die Gleiche.
Selbst wenn man vorab alle HTML Tags durch strip_tags entfernt, bleibt ggf. noch das Problem von vorhandenen Entities: Wie schaut es aus wenn ein ä nach &au abgeschnitten wird? Vom dadurch enstehenden Wegfall an Informationen wie Bildern, Verweisen oder anderen Formatierungen durch den HTML Code ganz zu schweigen.
Sobald man es mit HTML zu tun hat, und dieser Code in seiner Struktur auch nach der Kürzung erhalten bleiben soll, wird die Aufgabe deutlich komplexer. Weder substr oder ein regulärer Ausdruck sind ausreichend, denn alle geöffneten Tags müssen (in umgekehrter Reihenfolge) wieder sauber geschlossen werden. Alle Tags dürften keinen Einfluss auf die maximale Anzeigelänge haben und HTML Entities dürften nur als ein Zeichen gewertet werden.
Der “geöffnete Tags”-Problematik nehmen sich noch einige Funktionen an. Bei DZone gibt es ein entsprechendes Snipplet (die ausgereifteren Lösungen findet man in den Kommentaren zum Snipplet) und für die Template-Engine SMARTY gibt es auch einen entsprechenden Modifier. Die Problematik der “wirklichen maximalen Länge”, oder die Entities werden in den meisten Fällen aber nicht mit berücksichtigt.
Die meines Erachtens ausgereifteste Lösung findet man bei CakePHP, dieses Snipplet gewährleistet wirklich eine reibungslose Kürzung von HTML, inklusive Entities und korrekter Längenberechnung.

