在网页开发中,我们经常会遇到需要去除HTML标记的情况。例如,在发布文章时需要将用户写的富文本去除HTML标签,只显示纯文本内容。在这种情况下,PHP提供了一个很方便的函数——strip_tags(),它可以将HTML标记从字符串中删除。
一、strip_tags()函数的基本用法
strip_tags()函数基本用法非常简单。它只接受一个参数——要处理的字符串,然后返回一个删除HTML标记后的字符串。
<?php $str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>的<br>HTML</p>'; echo strip_tags($str); ?>
输出结果:
这是一段加粗链接的HTML
可以看到,在这个例子中输入的HTML字符串包括<p>、<b>、<a>和<br>这些标记,但输出结果中这些标记都被删除了。
二、指定允许的标签
strip_tags()函数默认会删除所有的HTML标记,但有时我们需要保留某些标记,例如图片或链接标记。strip_tags()函数提供了一个可选参数,可以用来指定允许保留的标记。
<?php $str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片</p>'; $allow_tags = '<b><a>'; echo strip_tags($str, $allow_tags); ?>
输出结果:
这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和图片
在这个例子中,我们指定了允许保留的标签为<b>和<a>,结果中其他标记都被删除了。
三、指定允许的标签和属性
除了指定允许保留的标记外,strip_tags()函数还可以指定允许保留的标记中的特定属性。例如,在img标记中,我们只需要保留src属性,其他的属性都可以删除。
<?php $str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg" alt="一张图片">图片</p>'; $allow_tags = '<b><a><img>'; $allow_attrs = array('src'); echo strip_tags($str, $allow_tags . $allow_attrs); ?>
输出结果:
这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片
在这个例子中,我们除了指定允许保留的标记为<b>、<a>和<img>外,还指定了允许<img>标记保留的属性为src,其他的属性都被删除了。
四、考虑安全性问题
虽然strip_tags()函数非常方便,但要注意它可能引起的安全性问题。由于strip_tags()函数只能删除标记,而不能验证标记的合法性,因此有可能会将恶意脚本保留下来,并在浏览器中执行。为了避免这种情况,我们应该采用其他的措施,如过滤用户输入或使用专业的安全库。
五、综合应用范例
以下是一个综合应用strip_tags()函数的范例,它可以去除用户输入的HTML标记,并且可以指定允许保留的标记和属性。
<?php function filter_html($str, $allow_tags = '', $allow_attrs = array()) { // 去除HTML标记 $str = strip_tags($str, $allow_tags); // 去除HTML属性 if (!empty($allow_attrs)) { $dom = new DOMDocument(); @$dom->loadHTML('' . $str); $tags = $dom->getElementsByTagName('*'); foreach ($tags as $tag) { $attrs = $tag->attributes; if (!is_null($attrs)) { for ($i = 0; $i < $attrs->length; $i++) { $attr = $attrs->item($i); $name = $attr->nodeName; if (!in_array($name, $allow_attrs)) { $tag->removeAttributeNode($attr); } } } } $str = $dom->saveXML($dom->documentElement); } return $str; } $str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg" alt="一张图片">图片</p>'; $allow_tags = '<b><a><img>'; $allow_attrs = array('src'); echo filter_html($str, $allow_tags, $allow_attrs); ?>
输出结果:
这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片
在这个范例中,我们定义了一个filter_html()函数,它可以去除HTML标记和属性,其中$allow_tags和$allow_attrs分别是允许保留的标记和属性数组。这个函数可以应用在需要保证网站安全性的场合,例如用户评论或留言功能中。