岗位职责:
1、参与爬虫系统的架构设计与开发;
2、负责指定网站页面的抓取和提取处理;
3、参与爬虫核心算法的策略优化研究。
任职资格:
1、计算机相关专业本科以上学历,能承受一定工作压力,以解决技术难题为乐趣,有想法,敢于挑战;
2、有从事网络爬虫、网页去重、网页信息抽取的经验,精通网页抓取原理及技术;
3、熟悉tcp,http协议原理;熟悉ajax工作原理;精通Python编程,具备扎实的数据结构与算法功底;熟悉pySpider平台使用及源码;
4、熟悉HttpClient、HtmlParser、Jsoup、Lucene、Nutch中的一种或多种开源技术;
5、具备一定的信息检索和web挖掘能力。