对话CTO听知乎CTO李大海讲技术如何

北京哪家白癜风医院好 https://jbk.familydoctor.com.cn/bjbdfyy_js/

「对话CTO」是极客公园的一档最新专栏,以技术人的视角聊聊研发管理者的发展和成长。

我们特别邀请到了企业级研发管理工具ONES的创始人CEO王颖奇作为特邀访谈者。王颖奇曾参与金山软件WPS、金山毒霸等大型软件的核心开发工作;年创立了正点科技,旗下产品正点闹钟、正点日历在全球用户过亿;年,王颖奇在知名美元基金晨兴资本任EIR,并以个人身份参与十余家公司的管理咨询工作;年,王颖奇创立ONES,致力于提供企业级研发管理工具及解决方案。

五年之后,知乎会变成什么?——「超大规模的知识内容社区」是知乎CTO李大海给出的回答。

截止年1月,知乎用户数已经突破2.2亿,问题数万,回答数1.3亿。用李大海的话说,知乎不仅要成为全领域覆盖所有用户的知识内容平台,还要持续产生优质内容,因为优质内容有很强的时间复利,也许三年以后仍在持续帮助更多的人。

李大海坦言,很多用户将知乎当做一种搜索引擎来用,这体现了知乎高质量内容的价值,但其背后是更纵深、更人文、更多元,也更鲜活的第一手素材和讨论。

随着用户规模变大,类似的偏差感出现在许多层面,传统单一的内容生产机制,分发机制以及社区治理机制逐步地失效。「智能社区」是知乎希望驶向的方向,用机器学习、人工智能算法在社区治理、内容生产和消费等等方面进行权衡。「这个事情必须要用技术才能办得到,光靠产品和运营的手段是不够的。」李大海说道。

AI助力的智能社区

颖奇:非常感谢知乎CTO李大海接受我们的采访。能否请您先介绍一下知乎的研发团队现状,以及重点的研发方向。

李大海:目前知乎的研发人员接近人,并在不断扩充中。我们目前重点投入的技术领域主要在移动端体验优化、基础架构、安全、大数据、机器学习等等。机器学习是我们很重要的一个方向,现在大概有70多人的机器学习工程师团队。在机器学习这个领域,我们也做了很细致的围绕知乎的应用场景展开的工作。

颖奇:您提到的机器学习领域,我看到我们有很多资料有提到通过AI的方式来控制社区内容质量,那么具体来看机器学习在知乎的社区管理上做了哪些工作呢?

李大海:截止年1月,知乎用户数已经突破2.2亿,问题数万,回答数1.3亿,每天都有大量的用户在知乎分享自己的知识、经验和见解。这么庞大的内容和用户体量,单依靠人力肯定是不现实的,AI的应用是一个必然的趋势。到目前为止,知乎AI算法应用已贯穿了从内容生产、消费和社区治理等多个场景。

在内容治理场景中,我们综合使用情感模型、用户亲密度模型和文本识别模型,不断优化算法机器人「瓦力」,识别并实时处理不友善、答非所问、阴阳怪气等内容,部分场景识别准确率达到99.13%。

这里面的技术挑战有很多,我在这里不说细节。单从逻辑上来说,由于自然语言的开放性和歧义性,任何机器学习算法在实际场景中,都不可能达到%的召回率和准确率。因此,在社区治理领域,我们采用的是「人机结合」的方式来进行系统优化:我们会保留一个人数较大的人工团队,他们非常了解知乎的社区规则,他们会处理、纠正算法不能识别和识别不准的情况,然后算法再把这些纠正的案例当成增量的学习材料,升级模型的表达能力。这是一个持续积累的过程,在这个过程中,算法的能力会变得越来越强大。

当然,除了对文字类型内容的识别之外,我们也在做很多工作去覆盖更多类型的内容,包括图片和视频、音频等等。

颖奇:所以技术在社区治理方面已经是起到了非常大的促进作用的。

李大海:在这件事情上我们其实是深度和广度两方面都在前进。所谓广度就是我们会去不断的拓展能力,在越来越多的场景能够去识别和处理。深度就是它的准确率,要慢慢处理的越来越准。所以深度和广度同时作用,我们的用户就不需要主动去举报低质内容,而是靠机器算法,人机结合的方式降低了「用户举报」,也就是我们内部常提到的「主动覆盖率」的比例降低了下去。

颖奇:所以如果早期没有AI技术的情况下,可能需要一个非常庞大的内容审核团队和用户举报的覆盖才能保证内容和质量。

李大海:如果没有AI算法的话,我们的审核团队应该跟内容的增长成正比,但现在其实不是。我们的审核团队总数几乎没有怎么变过,从年开始就维持在一个相对稳定的人数上,它的增量很小,但是我们内容的增量是很大的。

颖奇:还有哪些例子能看到AI等技术给知乎带来作用呢?

李大海:我们在AI的应用方面做了很多尝试,这些应用帮助知乎社区的用户、内容之间有更高效、精准的匹配和连接,让我们的社区维护和治理工作变得更简单、有序。比如在信息的分发上,我们在首页信息流推荐系统中引入了AI算法,经过多轮优化和升级,知乎的信息流推荐系统已经在知乎整体业务中占了非常大的体量,用户渗透率(即有多少用户会有效来到首页看内容)达到88%,使用时长占比(包括使用知乎的时长以及在知乎中消费内容的时长等)达到76%。

再比如,在内容的匹配上,我们推出问题路由功能,采用人工审核、算法和运营策略相配合的方式,精准邀请相关领域的用户回答问题,尽可能地提高问题的回答率。问题路由功能上线以来,由系统推荐带来的应邀回答数比过去提升了%。

还有上面所讲到的社区治理方面,通过瓦力实现了违规内容的精确识别和处理,让社区氛围和用户体验变得更好。

颖奇:知乎作为全领域内容社区,大量内容推荐是否可能会使用户聚焦在某些领域,导致用户对知识的获取相对闭塞。知乎是通过怎样的技术手段去平衡用户的知识外延和知识聚焦呢?

李大海:知乎早年有一个Slogan叫「发现更大的世界」,所以我们很在意用户来知乎,是不是能够拓展自己的眼界。从技术层面来说,我们除了采用精确的预估模型去匹配用户的兴趣领域之外,也会采用兴趣探测模型,去了解用户是否对一个新的话题或领域感兴趣。

假如这个世界上所有的知识领域是固定的,那么它就相当于一张知识地图。每个人在这张知识地图上的地形是不一样的。很喜欢的领域可能是很高的正值,是波峰;不喜欢的领域就是负值,是波谷。往往一个新用户来了以后,知乎对他的知识地图画像是很模糊的,但之后会越来越清晰。清晰化以后,我们就能够给他推荐相对全面的东西。

颖奇:所以知乎本质还是要帮助用户去发现新的知识。

李大海:我们是希望能够尽可能点亮用户的地图,而不是一旦发现用户地图上有个波峰,就一直在这个波峰上去推荐内容。除了技术层面的改进,我们也有产品层面的想法来提升用户的体验,包括


转载请注明:http://www.xxcyfilter.com/cxrs/cxrs/17431.html