这几天经常看百度贴吧。发现好多童鞋为了求各种资源,都很自觉的留下了自己的邮箱,但是楼主到底发不发可要看楼主心情了~
守着这么多邮箱,总是会让人衍生出很多想法的,具体怎么利用不知道,但是咱会写采集器啊…… 用的还是Httpclient+Jsoup没的说~
简单梳理下思路:
0.某个贴吧首页:http://tieba.baidu.com/f?kw=XXXXXX
1.遍历所有的展示页面:百度贴吧第几页的规则为在对应贴吧url后面加上 &pn=100 &pn=150 ,每50个一页
2.遍历每个页面的帖子地址
3.对于每个帖子,不断获取“下一页”链接,同时收集email地址写入文件Think more 如何实现多线程?
最后那个多线程貌似不太好实现,基本木法实现,百度帖子地址很难有规律可循,除非遍历整个百度帖吧所有帖子,而不是某个贴吧的帖子。
昨天晚上简单写了写,用“愣头青”的方式不断遍历,早上看了下,竟然采集到了大概11万左右的邮箱地址^^ ,当然很多应该是重复的,我只统计@的数量~
见图
附上代码,仅供参考,如果不能用说明百度采取措施了,或者换了网页结构。
貌似一放代码,网页这里就乱了,所以放百度网盘了~ http://pan.baidu.com/share/link?shareid=534479&uk=1914144947