0
点赞
收藏
分享

微信扫一扫

博客搬家算法伪码



不同平台的博客,数据解析方式不一样,数据抓取和存储都是类似的。


1.确定博客首页地址

  a.平台地址


  b.账号

   fansunion


2. 从首页获得关键信息


  2.1获得博客分类列表


  

  List<String> 存储所有的文章分类,保存到数据库中

  addArticleCategory(Integer userId,List<String> categoryList);

  

  创建所有的日志分类(id自增,name)

  

    2.2确定日志的页数

   获取到“9” pageCount

   

3.获取日志集合 

  3.1确定日志列表的地址

  

  

  3.2遍历所有的文章列表

for(int index=0;index<pageCount;index++){
   解析该页的日志地址,比如CSDN的格式是“ javascript:void(0)fansunion/article/details/17070151”
 }

所有的日志地址集合

List<String> articleList;

4.遍历所有的文章

for(int index=;index<articleList.size;index++){
 
 
 
 
 
 
 
  }

举报

相关推荐

0 条评论