今日头条数据挖掘实习生面试

相同的招数对圣斗士是无效的

老规矩,先简单记录一下。

一面

面试官:“我认真看了你的简历和随附的项目展示视频,工程实现能力还是很不错的,这一点我比较看好。”

主要问了关于项目:(网络文学IP评估及预测)的架构(scrapy + redis + mongodb),抓取数据的实例,如何进行存储和备份,项目中负责的部分,队伍如何组建等等。

当时做项目的时候为了简便,系统的设计做的比较粗糙,后来也重新审视了一下整个项目,提出了一些改进意见(项目结束之后)。

有一点比较有趣,我提到抓取百度指数,刚好面试官也做过这个,后来两个人交流了一下经验,我们采用的比较粗放的方式自然不能用,头条内部是抓取了百度指数移动端的接口,然后对加密方式做了破解。心疼百度一下好吧。

关于这个项目,还是要感谢当初的队友(谢添未出镜)。

BADA7919C743B286B463162F5BBFD6C9

可能会因为之前面过头条有上一个面试官评语的关系吧,后面接着聊了一些别的问题,不是很久。

面试题前面也说了,出自LeetCode 54题,写的很顺利。

二面

据一面的面试官说,二面是他的leader,声音很好听(是的,二面又是个妹子)。

轮流自我介绍,介绍部门的情况,继续聊刚刚的项目:项目中遇到哪些问题、怎么解决的,

接着聊了一些人生规划,比如是否选择读研,之后的方向如何确定(图像、搜索、工程),如果进来之后发现岗位不喜欢会怎么处理。leader也很随和,甚至在我调侃了几句之后突然大笑:“我第一次碰到有人在面试里面开始黑母校哈哈哈”,聊到这里我以为都会这么轻松,但显然不是这样。

可能是自己放了大话说自己比较熟悉基础算法吧,leader开始问一些技术问题:

  • 机器学习当中都有哪些常见的分类算法?各自适用于哪些场景?
  • 说一下对SVM的了解?
  • 决策树算法当中,ID3和CART算法的区别有哪些?
  • 用到的PageRank算法解释下?
  • 分别解释一下bagging/boosting/stacking是什么?它们有哪些区别?
  • 文本主题提取里面 LDA 基本原理?
  • 机器学习中,特征出现线性重复的时候如何处理?就常见的几种算法举例解释一下
  • 后面还有一些记不太清了

面试官说了一句我很害怕的:“对于这几个问题了解的深度不够”

我本想算了,毕竟确实准备的不到位,想想争取了一下,跟面试官直接了当的说:“你说的这些我确实不太熟悉,很大一部分原因是我没有接触相关的项目,所以不够了解,我项目里面有三个项目,比如第一个物体跟踪,我就花了很多时间去研究,我可以从头到尾给你解释一下。”

然后我硬着头皮拉着面试官说了10min,从传统的检测方式到RCNNFast-RCNN再到Faster-RCNN,介绍了没总方法的总体思路和重要环节 —— 我知道面试官不熟悉这个,但还是强行说了,面试官也就只能一直点头。

说完解释了一下,大概意思就是,你看我说这个的目的就是告诉你,我也可以理解出深度(其实并不够深),只要我花心思去做。

接着又开始聊人生,你身边的人对你如何评价?自己觉得最大的优点和缺点是什么?

  • 优点:执行力强,认准了就全身心去做,积极准备,踊跃请教别人
  • 缺点: 比较执着,自己有了想法并且认为可行的时候更希望说服别人参与进来,不想轻易的放弃的自己的idea

最后是提问环节。

结束以后问了下,通知说是 推荐实习offer

小结

  • 需要系统的学习,零星的学习无法组成网络
  • 更多的机器学习相关实操经验
  • 有的时候敢于去说服别人
  • 对于网上的面试题还是要积极的准备
  • 遇到过的问题一定要解决掉