项目中,需要用爬虫去抓取页面数据,然后解析出其中的联系方式,如:“邮箱”和“电话号码”,刚开始,大伙潜意识地想到直接用正则表达式去提取,网上也有很多现成的“邮箱”和“电话号码”的正则表达式。代码跑了一段时间后,发现抓取到的“邮箱”数据到是挺正常,而“电话号码”的书写方式却千奇百怪,先前找到的正则就不那么灵敏,总而言之,解析出来的“电话号码”一看就很假,销售人员打过去,肯定也报空号。
作者:AlbertWen
添加时间:2022-06-08 09:01:47
修改时间:2025-07-12 05:59:32
分类:04.数据采集/爬虫
编辑
针对 空列表/空集合/空字典,有对应的工具方法直接创建:Collections.emptyList()、emptySet()、emptyMap(),但不推荐使用。。。
作者:AlbertWen
添加时间:2022-06-03 21:08:40
修改时间:2025-07-13 10:32:34
分类:07.Java框架/系统
编辑
Mybatis中Like 的三种使用方式对比
Zabbix收藏
做好任务分配有两个前提:
- 一是对事情的性质有把握
- 二是对人的特点有分辨
作者:AlbertWen
添加时间:2022-05-30 16:37:51
修改时间:2025-07-12 15:48:17
分类:04.数据采集/爬虫
编辑
agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到zabbix server端,zabbix server将数据存储到数据库中,zabbix web根据数据在前端进行展现和绘图。
CentOS 7 安装 Zabbix 5.0 LTS