用python爬取网页信息的话,需要学习几个模块,urllib,urllib2,urllib3,requests,httplib等等模块,还要学习re模块(也就是正则表达式)。根据不同的场景使用不同的模块来高效快速的解决问题。

平时多看看网上的文章和教程,很快就能学会的。
补充一点:以上使用的环境是python2,在python3中,已经把urllib,urllib2,urllib3整合为一个包,而不再有这几个单词为名字的模块。
发送HTTP请求获取网页内容:
这种是用js实现的。所以后面的内容实际上是动态生成的,网络爬虫抓取的是静态页面。至于解决办法,网上有几种:
一种是使用自动化测试工具去做,比如selenium,可以模拟点击等操作,但是这个其实和爬虫还是有很大区别的。
二是利用特定的类库在后端调用js,python的倒是有,但是java的我就不清楚了。
三是自己找到相关的页面的js代码,分析出来相关的请求url,直接调新的url就行了,但是一般的js都是加密压缩的,但是你可以试试。