第六章 数据地(1/2)
男孩回过神来,重新整理思路。
既然是失踪案,那就换一个出发点,从失踪抓起。
他打开新闻站,发现密密麻麻早已铺满了各种各样失踪的新闻和求助帖子。
「城西两名高中生已经失联三天,最后一次出现是放学结伴去的游戏厅,家长已将周边游戏厅搜遍,仍未现身。」
「城东女子赵某两天前出门夜跑后再也没回家,警方根据其男友提供的常用夜跑路线展开搜索,未见踪迹。」
「19岁女孩夜间上出租车后失踪,出租车的GPS信号也在案发当晚离奇消失,目前仍在进一步搜索中。」
「14岁的初中女孩小韩,四天前放学回家途中走丢。」
「钱唐市警方提示,最近城西和城南地区犯罪分子猖獗,夜间出行要结伴,注意安全。」
他皱着眉头一篇一篇看着,突然露出兴奋的笑,快速在白纸上画出路径图。
忍住冲动的喜悦,首先打开爬虫软件,软件图标虽然是个小蜘蛛,不过倒也没那么令人心慌,不过是顺藤摸瓜抓取信息的可爱小工具而已。
什么?会员到期了?
男孩露出不满,一个月都得一百多元的会员费,不能就此放过,可是自己口袋里也就几百块零花钱了都是省吃俭用拼出来的,如果跟母亲要钱买软件总觉得很奇怪吧。
既然没钱,那就自己做一个。男孩咬着牙用力点头,舒展手指,跃跃欲试。
开源框架很多,短板在主机的配置和调试上,各种版本各种语言的爬虫都有,冗余是最大的敌人,尤其是要装在谷文承那个可怜巴巴的远程主机,小水管的带宽和小松鼠心脏一样的配置。
他苦笑了一下,对更适合爬虫的python自然是不熟悉的,他在开源网站上找到熟悉的php版,作者是一个印度孩子,不同的主机操作系统,远程安装的命令都不一样,好在开源网站支持远程克隆,一瞬间部署完毕。
奇怪,硬是没起作用?果然是系统不对,为了用Torch开发人工智障男孩已经忍痛洗成乌班图了,如今又要回到php可不又得换回CentOS才好么,男孩捶了自己胸口一下,将那些被同学称为人工智障的诗篇一一备份存好,重装主机。
20分钟过去,爬虫部署完毕,男孩测试了一个本地新闻站,路径设置是比较困难的,不同网站的页面结构有所不同,有些标题的Class属性都是乱写的,男孩一边忍着怒气一边一个一个调整好,过了半个小时,三个新闻站已经爬取完毕,最近7天只要带着失踪两字的新闻全都被抓下来。
趁热打铁,他又添加了十个本地新闻站和两个本地论坛,两三个网站的反爬虫机制很厉害,不到一分钟就被禁止访问了,他苦笑了一声耸了耸肩,无论如何已经有上千条新闻进来了。
新闻抓取,达成!男孩带着明亮的眼眸笑着,带着欣喜回望了身后熟睡的女孩们,又紧握拳头再次振作。
接下来是提取工作,首先是去重,用distinct命令就可以。去重之后剩下700多条新闻和帖子,男孩倒吸一口凉气。
短短几天,全市竟然发生了700多起失踪案!
提取工作最难的一部分是地点识别,男孩没有字典,如果是有物流公司的数据就好了——思忖片刻,问题很快解决。
他打开无极公司的地图网页,找到API接口,用网页提取的方式将钱唐市的所有街道小区名、路名、饭馆名、桥名、河名全部提取下来,毕竟工作量不大,于是他连公共厕所也没有放过。导入新的数据表后,自制的字典完成。
借着字典和熟悉的命令,几十万字的新闻在5分钟化为700个零碎地名的文件,再次去重之后,只剩下500多个地名
本章未完,请点击下一章继续阅读!
既然是失踪案,那就换一个出发点,从失踪抓起。
他打开新闻站,发现密密麻麻早已铺满了各种各样失踪的新闻和求助帖子。
「城西两名高中生已经失联三天,最后一次出现是放学结伴去的游戏厅,家长已将周边游戏厅搜遍,仍未现身。」
「城东女子赵某两天前出门夜跑后再也没回家,警方根据其男友提供的常用夜跑路线展开搜索,未见踪迹。」
「19岁女孩夜间上出租车后失踪,出租车的GPS信号也在案发当晚离奇消失,目前仍在进一步搜索中。」
「14岁的初中女孩小韩,四天前放学回家途中走丢。」
「钱唐市警方提示,最近城西和城南地区犯罪分子猖獗,夜间出行要结伴,注意安全。」
他皱着眉头一篇一篇看着,突然露出兴奋的笑,快速在白纸上画出路径图。
忍住冲动的喜悦,首先打开爬虫软件,软件图标虽然是个小蜘蛛,不过倒也没那么令人心慌,不过是顺藤摸瓜抓取信息的可爱小工具而已。
什么?会员到期了?
男孩露出不满,一个月都得一百多元的会员费,不能就此放过,可是自己口袋里也就几百块零花钱了都是省吃俭用拼出来的,如果跟母亲要钱买软件总觉得很奇怪吧。
既然没钱,那就自己做一个。男孩咬着牙用力点头,舒展手指,跃跃欲试。
开源框架很多,短板在主机的配置和调试上,各种版本各种语言的爬虫都有,冗余是最大的敌人,尤其是要装在谷文承那个可怜巴巴的远程主机,小水管的带宽和小松鼠心脏一样的配置。
他苦笑了一下,对更适合爬虫的python自然是不熟悉的,他在开源网站上找到熟悉的php版,作者是一个印度孩子,不同的主机操作系统,远程安装的命令都不一样,好在开源网站支持远程克隆,一瞬间部署完毕。
奇怪,硬是没起作用?果然是系统不对,为了用Torch开发人工智障男孩已经忍痛洗成乌班图了,如今又要回到php可不又得换回CentOS才好么,男孩捶了自己胸口一下,将那些被同学称为人工智障的诗篇一一备份存好,重装主机。
20分钟过去,爬虫部署完毕,男孩测试了一个本地新闻站,路径设置是比较困难的,不同网站的页面结构有所不同,有些标题的Class属性都是乱写的,男孩一边忍着怒气一边一个一个调整好,过了半个小时,三个新闻站已经爬取完毕,最近7天只要带着失踪两字的新闻全都被抓下来。
趁热打铁,他又添加了十个本地新闻站和两个本地论坛,两三个网站的反爬虫机制很厉害,不到一分钟就被禁止访问了,他苦笑了一声耸了耸肩,无论如何已经有上千条新闻进来了。
新闻抓取,达成!男孩带着明亮的眼眸笑着,带着欣喜回望了身后熟睡的女孩们,又紧握拳头再次振作。
接下来是提取工作,首先是去重,用distinct命令就可以。去重之后剩下700多条新闻和帖子,男孩倒吸一口凉气。
短短几天,全市竟然发生了700多起失踪案!
提取工作最难的一部分是地点识别,男孩没有字典,如果是有物流公司的数据就好了——思忖片刻,问题很快解决。
他打开无极公司的地图网页,找到API接口,用网页提取的方式将钱唐市的所有街道小区名、路名、饭馆名、桥名、河名全部提取下来,毕竟工作量不大,于是他连公共厕所也没有放过。导入新的数据表后,自制的字典完成。
借着字典和熟悉的命令,几十万字的新闻在5分钟化为700个零碎地名的文件,再次去重之后,只剩下500多个地名
本章未完,请点击下一章继续阅读!