傅令江的光影色彩世界
留住记忆的点滴
  • 首页
  • 文学
    • 诗词鉴赏
    • 美文共读
    • 原创
  • 编程
    • php
    • asp
    • .net
    • VB
    • C/C++
    • 易语言
    • js
    • 其他
    • 逆向
  • 运维
    • windows
    • linux
  • 光影色彩
    • 电影
    • 音乐
  • 科技
    • 互联网
    • 手机
  • 生活
    • 情感
  • 微语
10月52014

php采集文章过滤版权信息

作者:令狐江   发布:2014-10-5 7:17   分类:php   阅读:2844次   评论:0条  
  1. function TT($html,$maxlen) {
  2. if (preg_match("/<title>(.*)<\/title>/isU", $html, $t)) {
  3. if (preg_match_all("/<h([1-3])(?:[^>]*)>(.*)<\/h\\1>/isU", $html, $ts)) {
  4. foreach($ts[2] as $vt) {
  5. if (strpos($t[1], $vt) !== false) return $vt;
  6. }
  7. }
  8. $t[1] = str_replace(array('-', '—', '_', '>'), '|', $t[1]);
  9. $splits = explode('|', $t[1]);
  10. $l = 0;
  11. foreach ($splits as $tp) {
  12. $len = strlen($tp);
  13. if ($l < $len) {
  14. $l = $len;
  15. $tt = $tp;
  16. }
  17. }
  18. $tt = trim(str_replace('"', '"', cn_substr(html2text($tt), $maxlen)));
  19. return $tt;
  20. }
  21. return false;
  22. }
  23. /**
  24. * HTML转换为文本
  25. *
  26. * @param string $str 需要转换的字符串
  27. * @param string $r 如果$r=0直接返回内容,否则需要使用反斜线引用字符串
  28. * @return string
  29. */
  30. function html2text($str,$r=0) {
  31. $str = preg_replace("/<sty(.*)\\/style>|<scr(.*)\\/script>|<!--(.*)-->/isU", "", $str);
  32. $alltext = "";
  33. $start = 1;
  34. for($i = 0;$i < strlen($str);$i++) {
  35. if ($start == 0 && $str[$i] == ">") {
  36. $start = 1;
  37. } else if ($start == 1) {
  38. if ($str[$i] == "<") {
  39. $start = 0;
  40. $alltext .= " ";
  41. } else if (ord($str[$i]) > 31) {
  42. $alltext .= $str[$i];
  43. }
  44. }
  45. }
  46. $alltext = str_replace(" ", " ", $alltext);
  47. $alltext = preg_replace("/&([^;&]*)(;|&)/", "", $alltext);
  48. $alltext = preg_replace("/[ ]+/s", " ", $alltext);
  49. if($r==0){
  50. return $alltext;
  51. }else {
  52. $r = SpHtml2Text(stripslashes($alltext));
  53. return addslashes($r);
  54. }
  55. }
  56.  
  57. /**
  58. * utf-8中文截取,单字节截取模式
  59. *
  60. * @access public
  61. * @param string $str 需要截取的字符串
  62. * @param int $slen 截取的长度
  63. * @param int $startdd 开始标记处
  64. * @return string
  65. */
  66.  
  67. function cn_substr($str, $length, $start = 0) {
  68. if (strlen($str) < $start + 1) {
  69. return '';
  70. }
  71. preg_match_all("/./su", $str, $ar);
  72. $str = '';
  73. $tstr = '';
  74. for($i = 0; isset($ar[0][$i]); $i++) {
  75. if (strlen($tstr) < $start) {
  76. $tstr .= $ar[0][$i];
  77. } else {
  78. if (strlen($str) < $length + strlen($ar[0][$i])) {
  79. $str .= $ar[0][$i];
  80. } else {
  81. break;
  82. }
  83. }
  84. }
  85. return $str;
  86. }



本文固定链接: https://www.fulingjiang.cn/php/68.html

blogger
该日志由 令狐江 于2014-10-5 7:17 Sunday发表在 php 分类下。
版权所有:《傅令江的光影色彩世界》 → 《php采集文章过滤版权信息》;
除特别标注,本博客所有文章均为原创. 互联分享,尊重版权,转载请以链接形式标明本文地址;
本文标签:
上一篇::提取google搜索数据,遭遇屏蔽的解决办法用php_Curl获取Cookie!
下一篇:PHP获取页面的JS和CSS的总数和文件

热门文章

  • 兄弟二周年祭

相关文章

  • PHP时间日期操作增减(date strtotime) 加一天 加一月
  • PHP文本操作类,这个是以前一个文本论坛的,更改数据的时候有点兼容问题,都加上\n
  • 再发一个php爬虫程序
  • PHP获取页面的JS和CSS的总数和文件
  • PHP自适应分页代码,可以灵活定制CSS样式和分页链接效果!
取消回复

发表评论

亲,头像对么?

提交中,请稍候……


木有头像就木JJ啦!还木有头像吗?点这里申请属于你的个性Gravatar头像吧!


  • 日历

  • 存档

    • 2024年10月(1)
    • 2023年2月(1)
    • 2022年11月(1)
    • 2022年10月(10)
    • 2022年9月(13)
    • 2022年8月(2)
    • 2022年7月(14)
    • 2022年6月(2)
    • 2022年5月(8)
    • 2022年4月(7)
    • 2022年3月(13)
    • 2022年2月(2)
    • 2022年1月(9)
    • 2021年12月(2)
    • 2021年11月(4)
    • 2021年10月(2)
    • 2021年9月(6)
    • 2021年7月(4)
    • 2021年6月(3)
    • 2021年5月(3)
    • 2021年4月(11)
    • 2021年3月(13)
    • 2021年2月(2)
    • 2021年1月(1)
    • 2020年12月(1)
    • 2020年4月(5)
    • 2019年9月(1)
    • 2019年8月(1)
    • 2019年5月(3)
    • 2018年3月(1)
    • 2017年10月(1)
    • 2016年7月(1)
    • 2016年4月(1)
    • 2015年12月(1)
    • 2015年11月(3)
    • 2015年9月(1)
    • 2015年8月(10)
    • 2015年7月(1)
    • 2015年6月(1)
    • 2015年4月(1)
    • 2015年3月(3)
    • 2015年2月(8)
    • 2015年1月(4)
    • 2014年12月(1)
    • 2014年11月(27)
    • 2014年10月(13)
    • 2014年9月(14)
    • 2014年8月(26)
    • 2014年7月(21)
  • 最新评论

    • 令狐江:
      喜欢这首歌是因为可以引起共鸣!
  • 链接

    • 演讲稿网
    • Recollect
    • 演讲稿
    • 祁阳人生活网
    • 我爱演讲稿网
  • 搜索

  • 标签

      函数 自定义方法 SEO 分页 分页函数 分页方法 nginx重新的一些规则
  • 分类

    • 文学(0)
    • 编程(0)
    • 运维(0)
    • 光影色彩(0)
    • 科技(0)
    • 生活(0)
    • 诗词鉴赏(3)
    • 美文共读(1)
    • 原创(10)
    • php(111)
    • asp(1)
    • .net(0)
    • VB(0)
    • C/C++(0)
    • 易语言(0)
    • js(8)
    • 其他(9)
    • 逆向(2)
    • windows(11)
    • linux(121)
    • 电影(0)
    • 音乐(1)
    • 互联网(4)
    • 手机(0)
    • 情感(2)
  • 最新文章热门文章随机文章

    • 兄弟二周年祭
    • openai给的ionCube 解密代码,应该是老版本可以这样
    • WordPress – 5秒盾防CC(PHP通用代码)
    • 我高中最好的朋友今天猝死了-伤心得不行
    • Linux系统中 systemd-journaldCPU占用异常的解决方法
    • SVN Skipped 'xxx' -- Node remains in conflict 错误的解决办法
    • 解决Linux读写nfs共享盘速度慢的问题
    • php 获取302跳转后的地址
    • 让vsftp显示隐藏文件的办法,比如显示 .htaccess
    • Nginx负载均衡配置实例详解
    • Windows客户端内网穿透工具frpc安装及使用教程
    • 添加自签名https证书到centos系统信任的问题
    • 如何在php中获取curl请求的请求头信息及响应头信息
    • 关于centos6 yum源不可用问题解决办法
    • 宝塔历史版本集合,适合自己手动升级
Copyright © 2001-2025 傅令江的光影色彩世界. Powered by www.fulingjiang.cn ICP备案:京ICP备14015190号-5