Python
页面解析之数据提取-python爬虫
关于结构化的数据JSON、XML、HTMLHTML文本(包含JavaScript代码)是最常见的数据格式,理应属于结构化的文本组织,但因为一般我们需要的关键信息并非直接可以得到需要进行对HTML的解析查找,甚至一些字符串操作才能得到,所以还是归类于非结构化的数据处理中。把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。常见解析方式如下:XPath、CSS选择器、正则