php提取网页正文内容的示例

发布时间：2022-07-25 12:45 所属栏目：121 来源：互联网

导读：因为难点在于如何去识别并保留网页中的文章部分，而且删除其它无用的信息，并且要做到通用化，不能像火车头那样根据目标站来制定采集规则，因为搜索引擎结果中有各种的网页。抓回一个页面的数据，如何匹配出正文部分，郑晓在下班路上想了个思路是： 1. 提取

因为难点在于如何去识别并保留网页中的文章部分，而且删除其它无用的信息，并且要做到通用化，不能像火车头那样根据目标站来制定采集规则，因为搜索引擎结果中有各种的网页。

　　抓回一个页面的数据，如何匹配出正文部分，郑晓在下班路上想了个思路是：

　　1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。

　　2. 直接匹配出非链接的、符合在div、p、h标签中的中文部分???

　　还是会有不少其它多余信息啊，比如底部信息等。。如何搞?不知道大家有木有什么思路或建议?

　　这个类是从网上找到的一个php实现的提取网页正文部分的算法，郑晓在本地也测试了下，准确率非常高。

　　使用起来也非常简单，实例化时传入网页的html源码和相应的编码，然后直接调用其getContent方法即可返回提取到的正文部分，提取出的文章中可能还会含有少部分链接，可以自己后期再修改。

（编辑：ASP站长网）