关于Model和Model Ensembling在CTR中适用场景的理解
08 Dec 2017 » LR LR 适合什么样的特征 作为一个广义线性模型,LR 数学模型简单,权重和输出可解释,容易并行化训练,容易改造 Online Learning。简直是工业界的宠儿。但正是因为他模型简单,对特征的要求就高一些。属于典型的复杂特征+简单模型的套路(1)。 那么,feed 给 LR 的特征,需要长成啥样呢? 首先,我们认为全局特征是可以的。但是他在全局特征上学出来的东西,往往对个体是有偏的。而为了同时兼顾个性化,我们通常需要利用大量的 ID 类特征。常见的 ID...Read more...
mathjax support test
09 Nov 2017 » Test if inline can display properly. $[J_\alpha(x) = \sum_{m=0}^\infty \frac{(-1)^m}{m! \Gamma (m + \alpha +...Read more...
机器学习中的人为偏差
18 Oct 2017 » 引子 数据科学实在是一门庞大的学科,涉猎了太多领域的知识和技能。在这其中,人工进行的工作占了不小的比重,很多甚至是最关键的。比如标注数据,评判算法的优劣,指导模型的迭代等。 但是,有人的地方就有偏见(bias),就有主观上或者客观上带来的不确定性。而这种不确定性蔓延到数据科学领域,特别是机器学习领域,有时候对于我们求解问题的伤害是很大的,可能给我们带来有偏差甚至是相反的结果。这篇文章试图 把这些人工引入的 bias 列出来,并尝试给出一些建议。 这篇文章的很多经验,主要是来自百度搜索推荐机器学习团队的日常工作实践,是我这些年来浸淫数据科学研发和管理的所感所悟。 同时我也对认知行为学和心理学很感兴趣,平时会阅读一些这个领域的书籍。这里写的不一定全面,但是我敢保证足够接地气。 人工带来的偏见 证实偏见(Confirmation Bias) 认知偏见普遍存在于人类的主观意识中,说白了就是人们会倾向于去求证那些自己已经”相信”的事情,选择性的去寻找或者回忆起那些支持自己观点的证据,而对相反的证据选择漠视或者遗忘。 在认知偏见中,又数”观察着期望效应” 最容易出现在数据科学中。我们先来看下Wikipeda 对于这个效应的描述:...Read more...
App Discovery with Google Play 阅读笔记
09 Oct 2017 » 这个是 Google Search Blog 中的一个文章,正好10.1假期读到,这里简单做个阅读笔记。这个系列文章一共分为三个部分: App Discovery with Google Play, Part 1: Understanding Topics 主要介绍了如何给apps...Read more...
Tips of Team Management
21 Jul 2016 » 一晃儿做团队管理也有近两年时间了。虽然曾经在腾讯连年HCI冠军的团队待过,可真正轮到自己动手,才发现做一个旁观者和真正去实践是totally两码事。之前看技术领导之路,好像有一句话是说为啥团队的经理看起来都很愚蠢,那是因为他的很多工作都是显性的,而团队成员往往看不到经理背后的考量和妥协这些隐性的东西,造成信息的不对称,对这个观点我表示终于能理解了。 还记得在管理转正述职面试中,我说管理就是『管+理』,但『理』要重于『管』。一个管理者要善于看到团队中的技术和人员问题,甚至比当事人自己更加敏感,然后帮助团队一起理清重点,理清缺陷,对症下药,让业务得到发展,团队和成员都得到成长。想想两年实践,既有收获也有教训,我试着在这片文章里简单总结一下作为一个初级管理者的所见和所感,算是帮助自己思考,怎样做得更好吧。 ##招优秀的人 这个概念第一次提到是在公司给组织的『启航』初级管理者培训上,讲师Tomas说,如果在选育用留这几个阶段去选择的话『选』永远是最重要的。当时听了不以为然,因为总觉得日常项目那么多,时间那么长,在后边几个阶段总是要分配更多的精力。但是真正自己实践了才明白『选』的重要性。如果能在招聘阶段选到一个自我驱动能力和学习能力都很强的人,那么将节省大量的管理成本。招聘不太行的人进来,最可怕的一点是你要投入大量的时间去沟通、去check、去督促、去辅导、去说服、去引诱一个员工达成你的目标。一个能力强的工程师的战斗力可能抵得上2-3个,甚至夸张点十来个平庸的工程师。而你付出的工资却不用乘以那么多倍,省下来的沟通和辅导时间成本也是非常可观的。从这个角度上讲,用以吸引、筛选和争取一名优秀工程师的时间花费再多也是值得的。 在选人的实践中,我的确也有意花费很多精力用心去做,但复盘下来觉得自己做得并不是非常到位。拿校招来说,去年和今年都有让我非常心仪的候选者入围,但是最后因为种种因素,内部的比如师兄的召唤,外部的比如户口的吸引等等,最终没能把人留住,非常可惜。社招上,的确招到比较高阶的同学加入,但目前还没看到非常亮眼的表现。后边,我可能会有意在社招渠道方面投入更多时间和精力,去打开门路接触更优秀的候选者。 ##激发内心小火苗 对于团队成员,如何让大家能拧成一股绳往前冲,实现团队目标其实是有些难度的。尤其是当团队成员上十几二十个的时候,管理难度比三五个人时候大得多。我的办法是定期和团队成员谈心,不止聊工作,更多的是聊各自的成长和各自的需求,然后找到各自需求点和团队match的地方,并加以引导,实际效果还是不错的。其实大家80%的时间做着和工作相关的事情,个人目标很容易和团队需求达成一致的,重要的是如何引导,如何帮助大家看清自己的短板和优势,进行突破。在这一点上,我会帮着给大家加把火,点燃大家内心里对于渴望成长成功的小火苗,让同学们自己行动起来,达成对于个人瓶颈突破。 工作,最重要是乐在其中,赚钱只是副产品。 ##控制项目周期 互联网的项目就是这样,排期基本没准,delay家常便饭。不过自从当经理,就不得不对这种频繁delay的现象宣战.. 在长期的摸爬滚打中,我总结出一条经验:策略项目必须在2个月的时间周期内见到成果,否则就掐灭。因为如果你任凭一个项目发展3-4个月,必然导致后边越来越不可控。遇到一些大型项目咋办?答案是拆分成小项目,并在2个月的时间周期内做细化的目标追踪和项目管理。 要时不时的搞一些冲刺啊,rush啊.. 一来是项目压力确实大(我还没到达项目压力不大,但是自己没事搞rush的境界),而来rush项目确实是一个比较好的提高大家效率的方式。因为rush项目目标往往比较简单明确,大家做的事情也会更专注,项目进展的把控也会更快,遇到坎,要么快速突破,要么赶紧尝试其他办法。总之我组织的rush项目加起来也不下10来次了,成功的占绝大多数,而且过程也蛮开心的。 心中有千万语想说,可是落笔总结却那么零散。我这文笔也是该练一练了。总之,在管理实践的道路上,我是一个初学者,越做越发现自己很多地方做得不够好,做得离想象还有蛮大的差距。好在百度给了我一个相对宽松和自由的环境,团队的小伙伴们也能包容和配合我做很多的尝试,非常感谢周围的人。后边的路还很长,我会努力尝试,让自己能make更大的impact,给团队,给团队的小伙伴带来更好的东西。Read more...
深圳的房子出售
14 Dec 2015 » 基本情况 龙华水榭春天3期 8栋 89平 朝南 三房两厅两卫。大量赠送面积,实际使用面积90平左右。 装修 这房子是当时结婚准备自住用的,花了20来万装修。基建找的百安居,厨电、卫浴这些都是当时各大品牌的旗舰产品。橱柜、衣柜这些都花了很大的成本去挑选和搭配。具体不说了,去看就知道。总之,装这个房子当时花了我爱人无数的心思,不是那种随便糊弄一下的装修。沙发和主卧的床会稍微差一些,因为当时得知要离开深圳了所以就简单买的,你可能要换成自己更心仪的。 生活环境 沃尔玛开在小区楼下,不用出小区就能去超市。 500米范围内是华润万家、九方购物中心。 交通 走路去地铁龙华线红山站只要10分钟。 开车的话,新区大道10分钟到福田,南坪快速30分钟到南山。 人文环境...Read more...
百度智能推荐团队招聘
16 Jul 2015 » 我们是谁 我们是百度智能推荐团队,隶属百度搜索事业群组复合搜索部。我们的使命是通过业界前沿的大数据挖掘技术,为用户推荐其感兴趣的信息,帮助用户找到所求。 我们是做什么的 我们负责面向亿万用户的搜索推荐产品。每天,PB级别的数据在我们手上流转;每天,亿万次的推荐请求被我们处理;每天,几十亿个实体被精准地推荐给用户。百度积累多年的海量网站和用户行为数据是我们最大的资源,大规模分布式计算,深度神经网络,知识图谱,自然语言处理,实时推荐等技术都是我们掘金的工具。 我们能提供什么 团队拥有大公司的薪酬福利,却也有着小型创业公司的激情。 在这里,你有机会将业界前沿的机器学习成果应用到生产系统,体会Paper上的理论应用到实际的快感;在这里,你会被迫将开源系统改造得更加健壮和可扩展,满足工业级别系统的种种苛刻要求;在这里,你有机会实践从开发测试到运营管理的一系列挑战。 当然,最重要的是这里有一群有着共同的技术信仰,志趣相投的小伙伴。团队由UIUC博士、前Facebook高级工程师领衔,藏龙卧虎,技术大牛云集。他们业余时间会搞一些牛XX开源项目,比如NickGu最近就开源了一个叫fly的机器学习框架,在我们的生产场景下,GBDT比xgboost还要快不少。 团队目前仍在迅速成长。期待优秀的你加盟,一起实现我们的技术梦想。 我们要找什么样的人 数据挖掘高级工程师(机器学习方向) 工作职责: 负责推荐系统算法的调研和优化 应用文本挖掘、机器学习、语义理解等技术,开展意图识别,CTR预估等工作 负责海量数据下的特征选择和抽取,模型训练和调优...Read more...
当我Hackathon落选时 我谈些什么
29 Jun 2014 » 今天是我第二次参加公司的Hackathon活动。虽然又没能如愿当上“黑马”,但仍然学到了不少的东西。 Hackathon是Hack和Marathon的组合,中文直译过来叫做“编程马拉松”,是互联网公司内比较喜欢的一个活动。一般是某天下班后,公司在某个大型的会场或者Loft空间摆下几排桌子,准备充足的各种饮料小吃。员工们抛弃之前部门的藩篱,2-3个人自由组队,实现自己天马行空的创想。和单纯提出新的想法不同,Hackathon注重的是实现。你有个令人拍案叫绝的点子还不够,还必须有能力把想法做出来,并能在第二天演示给大家看。据我所知,Facebook会在每个月定期举行这样的Hackathon活动。谣传现在被大家所熟知的Graph Search,最初的原形就来自于一次Hackathon活动。 我之前曾说,Hackathon是百度最吸引我的东西,现在我依然这么觉得。他让你能有机会和资源,将自己的想法付诸行动,并在一个时间点集中爆发出来。最关键的,他还有交付和展示环节。让你的想法有观众倾听,并给你中肯的反馈。这就好比一场小型的创业经历:从想法的提出,到团队的组建;写出第一行代码,到站在台上演示。开始你可能灵光乍现,思如泉涌,产品的功能点五花八门。没准到了最后,你却不得不因为技术实现上或者时间上的种种制约因素而做出妥协。我经历了两次这样的“创业”,我有话要说。 百度搞Hackathon这次已经是第九季了。我来公司后有幸参加过两次。第一次是与福特合作的”Ford车载云”主题Hackathon。当时福特携新出炉的SYNC AppLink平台来到百度,和公司LBS等多部门一起合作组织了一次活动。我本身对LBS就比较感兴趣,加之又有一个非常有意思的平台,当时参与的热情高涨极了。几乎是几个晚上不睡觉,完善自己的想法和设计,并在论坛上纠集了两个同好来共同组队实现。 我们当时的想法是搞一个智能的语音助手:可以根据用户在LBS的日常轨迹,离线挖掘出他日常的上班线路,并在他每次开车上班前,给他当前这条路况的提醒。现在想来,当时如果能踏踏实实的把这个想法踏踏实实落地,实现一个完成度比较高的作品,没准能拿个一等奖也说不定。但当时我们仨都是第一次参加Hackathon,没有经验,也高估了自己的能力。讨论了几轮过后,大家都觉得这个想法太普通,实现出来不够惊艳。最终的想法是要做一个类似VR的概念。在手机上装一个APP,可以把自己的福特汽车变成虚拟世界里的一辆坦克。可以用开车的方式去探索周遭世界(类似红警中的探索地图),并赢得rewards。现在想来这个想法的确太天马行空了,而且以我们三个的能力,很难在24小时之内做一个像模像样的demo出来。但当时的我们(尤其是我),好像打了鸡血一样的“疯狂”,一夜没合眼,一直在不断的尝试去完成这个想法。但是因为在前端能力上的不足,在几个关健技术点上卡住了,终究还是没有拿得出手的作品演示。我只得空手套白狼的,搞了个PPT去宣讲了一下我们的想法,结果自然可想而知了。 第一次的“创业”经历告诉我这样的道理: 组建核心技术团队一定要优势互补,你必须清楚的知道实现你的创想技术难度在哪里,并且尽量找到在该领域你能找到的最强的人过来协助你; 永远只将精力投入到最核心的功能点上去,而不是东一下西一下。能把一个问题解决得彻底和漂亮,本身就很不容易; 演示的时候,用大家能听得懂的语言; 相比第一次,第二次的Hackathon想法有些仓促,周五晚上竞赛开始后我才临时起意,结果找部门总监走了个后门才顺利报上名。这次特意选择了一个小而美的点来做,并且找到了我能找到的前端最牛的人来和我一起组队。不过因为他周末比较忙,我们总共开发的时间加起来也就不到3小时,最终出来的效果其实差强人意,不够打动评委,最终还是没能入选。不过我这次的心态放得比较平和,本来就是参与第一,名次第二的事情。而这样的心态,恰恰使我这次能够张开耳朵去仔细聆听别人的idear,打开双手去为别人的精彩作品鼓掌。我这次更认真的参与了其他团队的最终展示环节,当了一把最投入的观众(上次完全是自己埋头背词好么…)。倾听他人,反而是我这次的收获更大。 第二次的“创业”经历,我意识到下面的几点: 好的作品,需要有一个合适的表达,才能让观众理解。尤其是时间非常有限的情况下(最终展示只有3分钟),你一定要用最高效的语言,和最容易让人接受的方式,把你作品里最亮点的东西演示出来; 做创新容易,做有市场的创新难,做有市场且有可行性且能利用现有资源推得起来的创新太难。不要只从程序员的角度思索实现的技术难度。一件事能否做成,技术难度往往只占很小的一部分;...Read more...
Baidu vs Tencent
02 Jun 2014 » 前两天和同事聚餐,饭桌上聊起不同公司的文化和办事风格,的确差别不小。作为在腾讯和百度都工作了几年的我来说,可能这方面感触就更深一些。两家都是非常优秀的公司,可以说各有所长,但各自的短版也显而易见。下面说说我对两家公司的看法,仅代表个人偏见。 百度的好 工程师主导,公共组件成熟,平台化打通全公司,hackton玩的爽; 牛人多,学术氛围浓。注重在技术深度上持续投入(比如深度学习),聚(yang)拢(zhe)一批国际顶尖专家; 公司比较关注金字塔尖端的人才,比较注重精英(牛人)的选拔和激励; 百度的差 公司多年专注搜索,在此领域深挖的同时,也造成了视野的相对狭窄,在互联网布局上总是比对手慢一些; 产品sense相对较差,不太专注于项目的持续运营,不屑于打磨产品细节。导致了发布的一些产品后劲不足,常常无疾而终; 腾讯的好 业务全面,抗风险能力强,盈利能力强; 尤其善于不断打磨产品细节,追求极致的用户体验,重视数据运营; 本土成长的牛人居多,不一定很强学术背景,但是真能成事,闷声发大财; 公司文化建设好,业余活动多(各种社团公司报销、固定的年度旅游等等); 腾讯的差 各部门之间基础技术基本独立,重复发明轮子比较常见;...Read more...
Valuable Web-sites in Google Reader
13 Apr 2014 » 这篇文章整理一下曾经在Google Reader上订阅的有价值的Blog。这些Blog都曾经或多或少的改变了我对待工作和生活的态度,谢谢这些作者。 ##Google Reader中的好网站 这些网站曾经在黑暗中为我点亮一盏盏指路的灯,希望你也能从中受益。 Mind Hacks 刘未鹏的Blog,每一篇文章都很有营养,值得细读。不过貌似最近两年更新频率不高了。 … TODORead more...
感兴趣的站点
13 Apr 2014 » 这个页面分享一些自己感兴趣领域的书签。之前一直在Evernote中做积累,但是Evernote的分享功能较弱。希望日后能在这里持续积累,并有机会让更多志趣相投的人看到。 ##AR & Body Sensor 自己一直personally对此领域非常感兴趣,希望以后能有机会在这个领域做出点事情。 MIT Media Lab && pranav mistry 第六感的source 非常inspiring Six...Read more...
愚人节的礼物 Fools day's gift
01 Apr 2014 » 今天是愚人节,开始我的Blog之路吧:) 之前曾经零散的在BlogBus、点点等地方写过一些东西。现在去看,大多稚嫩得很,自己都不大忍心读完。但是其中也不乏一些当时的真情实感,看后令人唏嘘。 坚持写下我的生活和思想吧,证明自己曾经活过。 Today is Fool’s Day. I deside to continue my bloger life in...Read more...