您的位置:

使用strip_tags删除HTML标记的PHP函数

在网页开发中,我们经常会遇到需要去除HTML标记的情况。例如,在发布文章时需要将用户写的富文本去除HTML标签,只显示纯文本内容。在这种情况下,PHP提供了一个很方便的函数——strip_tags(),它可以将HTML标记从字符串中删除。

一、strip_tags()函数的基本用法

strip_tags()函数基本用法非常简单。它只接受一个参数——要处理的字符串,然后返回一个删除HTML标记后的字符串。

<?php
$str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>的<br>HTML</p>';
echo strip_tags($str);
?>

输出结果:

这是一段加粗链接的HTML

可以看到,在这个例子中输入的HTML字符串包括<p>、<b>、<a>和<br>这些标记,但输出结果中这些标记都被删除了。

二、指定允许的标签

strip_tags()函数默认会删除所有的HTML标记,但有时我们需要保留某些标记,例如图片或链接标记。strip_tags()函数提供了一个可选参数,可以用来指定允许保留的标记。

<?php
$str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片</p>';
$allow_tags = '<b><a>';
echo strip_tags($str, $allow_tags);
?>

输出结果:

这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和图片

在这个例子中,我们指定了允许保留的标签为<b>和<a>,结果中其他标记都被删除了。

三、指定允许的标签和属性

除了指定允许保留的标记外,strip_tags()函数还可以指定允许保留的标记中的特定属性。例如,在img标记中,我们只需要保留src属性,其他的属性都可以删除。

<?php
$str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg" alt="一张图片">图片</p>';
$allow_tags = '<b><a><img>';
$allow_attrs = array('src');
echo strip_tags($str, $allow_tags . $allow_attrs);
?>

输出结果:

这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片

在这个例子中,我们除了指定允许保留的标记为<b>、<a>和<img>外,还指定了允许<img>标记保留的属性为src,其他的属性都被删除了。

四、考虑安全性问题

虽然strip_tags()函数非常方便,但要注意它可能引起的安全性问题。由于strip_tags()函数只能删除标记,而不能验证标记的合法性,因此有可能会将恶意脚本保留下来,并在浏览器中执行。为了避免这种情况,我们应该采用其他的措施,如过滤用户输入或使用专业的安全库。

五、综合应用范例

以下是一个综合应用strip_tags()函数的范例,它可以去除用户输入的HTML标记,并且可以指定允许保留的标记和属性。

<?php
function filter_html($str, $allow_tags = '', $allow_attrs = array()) {
    // 去除HTML标记
    $str = strip_tags($str, $allow_tags);
    
    // 去除HTML属性
    if (!empty($allow_attrs)) {
        $dom = new DOMDocument();
        @$dom->loadHTML('' . $str);
        $tags = $dom->getElementsByTagName('*');
        foreach ($tags as $tag) {
            $attrs = $tag->attributes;
            if (!is_null($attrs)) {
                for ($i = 0; $i < $attrs->length; $i++) {
                    $attr = $attrs->item($i);
                    $name = $attr->nodeName;
                    if (!in_array($name, $allow_attrs)) {
                        $tag->removeAttributeNode($attr);
                    }
                }
            }
        }
        $str = $dom->saveXML($dom->documentElement);
    }
    
    return $str;
}

$str = '<p>这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg" alt="一张图片">图片</p>';
$allow_tags = '<b><a><img>';
$allow_attrs = array('src');
echo filter_html($str, $allow_tags, $allow_attrs);
?>

输出结果:

这是一段<b>加粗</b><a href="http://www.baidu.com">链接</a>和<img src="img.jpg">图片

在这个范例中,我们定义了一个filter_html()函数,它可以去除HTML标记和属性,其中$allow_tags和$allow_attrs分别是允许保留的标记和属性数组。这个函数可以应用在需要保证网站安全性的场合,例如用户评论或留言功能中。