HTMLタグを削除したいときに使えるPHP関数 strip_tags

WordPressで投稿コンテンツなどを出力するとき、「HTMLタグを無くして文字だけを取得したい」といったことがあるかと思います。

そんなテキストだけを出力する必要がある時に使える、PHPの strip_tags() の使い方メモです。PHPの関数なので、WordPress以外でも利用できます。

strip_tags() で文字列に含まれるタグを削除

strip_tags() 関数は、指定した文字列の中にあるHTMLのタグやPHPタグを削除します。

PHP
strip_tags($str, $allowed_tags = null)
  • $str … 消したいHTMLタグがある文字列を指定。
  • $allowed_tags取り除きたくないHTMLタグを指定。

返り値は、$str で指定した文字列から $allowed_tags で指定した以外のHTMLタグを取り除いた文字列です。

文字列に含まれる全てのHTMLタグを削除

全てのHTMLタグを削除するなら $str の部分だけ記述します。

PHP
$str = '<a href="https://komaricote.com">strip_tags()でHTMLタグ削除</a>';
$deleteStr = strip_tags($str);
echo $deleteStr;

上記コードで出力した場合、HTMLのaタグが削除され、リンクなしの「strip_tags()でHTMLタグ削除」というテキストのみ表示されます。

PHPタグやコメント表記も削除される

PHPタグやHTMLコメントがある場合も削除されます。

PHP
$str = '<p>テキスト<!-- コメントアウト --><?php ?><?= ?></p>';
$deleteStr = strip_tags($str);
echo $deleteStr;

この場合、pタグのほか <!-- コメントアウト --><?php ?><?= ?> の部分も削除されます。

特定のHTMLタグのみ削除したい場合

特定のタグのみ除外したい場合は「削除しないHTMLタグ」を指定します。以下のコードでは、aタグはそのまま残ります。

PHP
$str = '<p><a href="https://komaricote.com">strip_tags()で特定のHTMLタグ削除</a><p>';
$deletePtag = strip_tags($str, '<a>');

【HTMLの表示】

<a href="https://komaricote.com">strip_tags()で特定のHTMLタグ削除</a>

複数のタグを除外したい場合は、タグをつなげて記述します。以下の場合はh3タグのみが削除されます。

PHP
$str02 = '<h3><p><a href="https://komaricote.com">strip_tags()で特定のHTMLタグ削除</a></p></h3>';
$deleteH3tag = strip_tags($str02, '<p><a>');

【HTMLの表示】

<p><a href="https://komaricote.com">strip_tags()で特定のHTMLタグ削除</a></p>

【その他注意事項】

※HTMLコメントやPHPタグは除外することができません。(削除される)

※HTMLがちゃんと記述されているか、と言ったチェックは行わないため、タグが誤ったものだと削除対象から外れてしまいます。
うまく取り除くことができなかったり必要な部分まで除外されてしまう場合は、元のタグが正しく記述されているか確認してみましょう。

HTMLタグを「除外」ではなく「無効」にしたい場合は、htmlspecialchars() 関数を使います。
こちらの関数は <p></p> などのHTMLタグの文字列を、&lt;p&gt;&lt;p&gt; といった特殊文字に変換するためのコードです。

WordPressでコンテンツ出力の際にHTMLタグを取り除く

WordPressのテンプレートタグの中には、そのまま出力すると文字列にHTMLが含まれるものもあります。そのようなコードを使用してHTMLタグを削除したい場合にも、strip_tags が使えます。

例えば、投稿の本文をHTMLタグを除いて出力させる場合、以下のように記述します。

PHP
$strip_cont = strip_tags(get_the_content());
echo $strip_cont;

出力まで行う the_〇〇 ではなく、取得のみを行う get_〇〇 を指定します。the_〇〇 というテンプレートタグは出力することがデフォルトの設定で、その場合値が取得できません。そのためHTMLタグが除外されないものが出力されます。
そのため、ここでは get_the_content() を使用しています。

strip_tags を使用すること自体もちろん問題はありませんが、WordPressテンプレートタグの中には、あらかじめタグを削除してから出力するテンプレートタグもあります。
例えば、タイトルのHTMLタグを除外する場合は the_title_attribute() というテンプレートタグが便利です。このコードだけで、HTMLタグを削除してテキストのみ出力してくれます。

カテゴリー : WordPress

タグ :

index