是什么让数据科学家从优秀变得伟大?

作者&投稿:语婕 (若有异议请与网页底部的电邮联系)
~

作者 | Amadeus Magrabi

来源| 数据派THU

数据科学领域的劳动力市场正发生着快速的变化。曾经,能够搭建机器学习模型被认为是只有少数顶尖的数据科学家才能掌握的尖端技能,但如今,有一点基本编程经验的人就能根据教程完成Scikit-learn或者keras的模型训练。

顶着“本世纪最性感的职位”,行业内的招聘人员不得不面对大量的数据科学相关的求职申请,而这样火热的程度目前看不到降温的趋势,同时越来越多的数据科学相关的开发工具也变得更加易用。人们对数据科学家能给我们带来什么的期望已经改变,越来越多的公司逐渐认识到,训练机器学习模型只是在数据科学领域取得成功所需的很小一部分工作。


这里,我们列举了四项成为伟大的数据科学家最有价值的品质:


一、重点关注业务影响

对于数据科学家而言,最常见的驱动力之一源自对于发现数据模式的好奇心:潜心于探索数据特征的探索、利用最新技术进行实验、系统性的测试并最终得到新的发现,这些工作都让数据科学家们感到兴奋。这种科学动机是数据科学家应该具备的。但如果它是唯一的动力,那也成了一个问题。

如果仅停留在数据层面,思路就会变的局限,最终迷失在数据统计的细节之中,忽略了具体应用场景和更大的公司业务背景。

顶尖的数据科学家懂得如何将他们的成果融入到公司整体的业务之中,并最终将其转化成商业价值。如果存在简单适用的技术,他们不会花费过多的时间去追求复杂的技术实现方式;在真正制定方案之前,他们会明确项目的意义并直击问题所在;他们会关注行动或者方案对整个团队的影响,并提前与相关人员进行沟通;他们会对新的项目和计划提供层出不穷的思路,并不介意自己在别人眼中是否过于“脑洞大开”;他们会对自己的方案帮助到更多的人感到自豪,而不是使用了更先进的技术。

数据科学目前仍是一个不规范的行业,学术教育与产业需求间存在着很大的代沟。顶尖的数据科学家无惧于走出“舒适区”,去面对更棘手的问题并最大限度地发挥其作用。


二、扎实的软件工程技能

当设想数据科学家的理想形象时,浮现在人们脑海中常常是在工作在顶级大学中的著名的AI学科教授。在企业需要提升模型准确率去面对更激烈的竞争时,纳入这样的人才无疑是明智的。因为为了提高传统方法准确率最后剩余的几个百分点,必须去关注数学方法的细节,验证复杂的方案,甚至为了特定问题去定制化的研发统计学技术。

但在实际工作中,这种场景太少见了。对于大部分企业而言,标准模型的准确率已经足够,再投入大量时间和人力去把模型优化成最好、最先进的模型并不那么具备性价比。更重要的是尽早建立精度尚可的模型并建立模型与业务系统的回馈循环,可以让你能开始迭代并快速找到模型的最佳使用场景。纠结于准确率的细微差别通常并非一个数据科学项目成败的关键点,这也是在实际业务开发中,工程技能比科学技能更重要的原因。

通常,一个数据团队的运作流程是这样的:首先数据科学家建立解决方案的原型,并提供试错和意面式的代码(覆盖功能点但没有系统化的代码);如果结果看起来还不错,代码就会交付给软件工程师,由软件工程师将这些草稿改写成可扩展的、高效的、可维护的代码。数据科学家并不要求像软件工程师那样提交产品级的代码,但如果数据科学家对软件工程更加熟悉,并且对可能发生的架构问题有所了解的话,整个工程会变的更加顺畅和高效。

随着越来越多的数据科学工作流程正在被全新的软件框架所替代,扎实的软件开发技能也成为了数据科学家们的必备技能之一。


三、谨慎的期望管理

站在领域外的角度看,数据科学是一个边界模糊并且令人难以捉摸的领域。这是炒作还是世界正在经历革命性的变革?是否所有的数据科学项目都是机器学习项目?这些人的身份是科学家、工程师还是统计学家?他们是做什么的,软件产品还是可视化的仪表盘?为什么模型给我的结果是错的,有谁能修复这个bug么?他们现在只给了这么几行代码,过去的几个月他们都做了什么?

面对数据科学,很多事情都显得那么不清楚,而同一个企业中的不同的人于数据科学家的期待也不一样。

对于数据科学家很重要的一点是:主动并持续与工作相关的人员进行沟通交流,明确工作预期,尽早消除误解,并让大家的认知达成一致。

顶尖的数据科学家懂得面对不同背景、不同目标的人采用不同的沟通方式,因为各种因素都会造成对数据科学的不同预期。顶尖的数据科学家要能通过一种简单易懂的方式给零技术基础的人讲清楚复杂的数据处理方法,以便达成工作目标;他们知道什么时候去消除过于乐观的预期,什么时候该说服过于悲观的同事。最重要的是,他们强调数据科学固有的实验性质,当一个项目的成功仍不明朗时,他们不会过度承诺。


四、熟悉云服务

云计算是数据科学工具的核心部分。在很多情况下,在本地服务器上运行Jupyter Notebook达到硬件资源极限后仍不足以完成任务。当需要在计算能力强大的GPU上训练机器学习模型、在分布式集群上并行化数据预处理、部署REST API来发布机器学习模型、管理和共享数据集或查询数据库以进行大规模分析时,云服务尤其重要。

目前,最大的云服务提供商包括亚马逊云服务(AWS),微软的Azure和谷歌云平台(GCP)。

考虑到大量的服务和平台之间的差异,云服务提供商提供的服务并不能胜任数据科学的全部方面。但重要的是要对云计算有一个基本的了解,以便在你需要他们的时候能够通过浏览文档来了解他们是如何工作的。至少,这可以让你提出更好的问题,并为友好的社区数据工程师制定更具体的要求。


结语

好了,对于那些希望从零开始组建数据科学团队的公司,我推荐他们去寻找那些务实的问题解决者,他们具有强大的工程技能和敏锐的业务价值洞察力。统计学技能的优势可以带来很多价值,但在很多应用场景中,它并非像以前那么重要,尤其对于创建初期的数据科学团队。

但目前而言,大多数公司更倾向于雇佣具有强大学术背景的数据科学家,比如数学或物理学博士。考虑到数据科学行业近年来的发展趋势,未来是否会有更大比例的软件工程师或技术产品经理转变为数据科学角色,将是一个有趣的问题。




人工智能专业就业方向及前景
1、机器学习工程师:机器学习是AI的一个核心领域,专注于开发能够从数据中学习的算法和模型。机器学习工程师负责设计、开发和部署智能系统,以从大量数据中提取见解并做出预测或决策。随着企业对自动化和智能决策支持系统的需求增加,这一职位的需求预计将持续增长。2、数据科学家:数据科学家使用统计分析、...

TGR中文是什么意思?
TGR中文是三个单词的缩写,分别代表了Scientific Data的三个维度:Theme、Geographic、Temporal。它是一种数据管理和发布的标准格式,可以让科学家们更方便地在科研中共享、使用数据。TGR中文的实现需要遵循一定的规范,包括数据命名、元数据、存储格式、访问方法等。对于研究人员来说,熟练掌握和使用TGR中文...

想成为数据科学家,需要申请读什么专业
做数据分析不得不看的书有哪些?怎么学习用R语言进行数据挖掘?(3) 数据可视化(Visualization)信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分...

如何成为一名合格的数据科学家?
从本质上来讲,出现业务人员疑惑的原因是“业务人员期待模型输出决策而不是名单”以及团队缺乏将模型输出转换为营销决策的能力。数据科学家也需要具备将模型结果转换为业务决策的能力。3. 充满想象力地开展工作 算法能做到什么是数学范畴的知识,数据科学家的核心工作就是将业务需求转换为一系列的数据分析实践...

数据科学家 Data Scientist发展是什么?
领域和DS自然相关的,比如CS,Stats,Machine Learning,偏CS、Computtional的Informatics等等;领域和DS非自然相关的,但是学业背景非常专,而且这些领域往往依靠数据和编程的情况比较多,比如Computational Bio,Neuro Science,Mechanical Engineer;领域可以transferable到DS上,尤其是从business\/social impact的层面...

资深高级数据科学家是什么地位的
资深高级数据科学家是处长级资深高级数据科学家。资深数据科学家被认为是该领域的专家,高级数据科学家通常使用该领域所需的所有不同工具。

数据科学家的工作职责是什么?
新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交 互分析。当他们有所发现,便交流他们的发现,建议新的业务方向。他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。把蕴含在数据中的规律 建议给Boss,从而...

大数据时代的数据科学家培养实践
领域业务知识:特定业务领域知识,并与数据技术有效结合。根据领域创新数据分析方法、提升应用技能,解决实际应用问题。因此,数据科学家应该是具备多种能力的跨界人才,数据科学人才培养体系应该是多层次多类型的。2010年起,各国大学开始了数据科学人才培养工作。哥伦比亚大学从2011年起开设《数据科学导论》课程...

科学家为什么不会被取代
2、数据科学领域已经跟随,机器人自动执行较低级别的任务,并为人力资源专家留下更复杂的解决问题的任务,因此,自动化与人类解决问题的结合实际上是授权而不是威胁数据科学家的工作,预期的转型所需的人力不足将会降低技术的采用和自动化。3、机器人会自动收集和清理数据的过程,然而,从这些数据揭示洞察...

哪种职业可以让人工智能发展
哪种职业可以让人工智能发展?1. 数据科学家:作为分析型数据专家的一个新类别,数据科学家通过分析数据来揭示复杂的行为、趋势和推论,挖掘隐藏的见解,从而帮助企业做出更明智的业务决策。2. AI\/机器学习工程师:机器学习工程师通常与数据科学家合作,同步他们的工作。随着对机器学习工程师的需求可能出现...

美姑县15848857710: 什么是好的数据科学家 -
豆茂百可: 一、一个数据科学家应该具有如下五个特质与技能: 1. 定量分析技能——例如数学和统计技能 2. 技术才能——例如软件工程、机器学习和编程能力 3. 善于怀疑——每个数据科学家必须善于用批判的眼光来审视自己的工作,而不是采用片面的求...

美姑县15848857710: 什么是数据科学家与数据科学 -
豆茂百可: 信息化是将现实世界中的事物和现象以数据的形式存储到CYBER空间中,是一个生产数据的过程.这些数据是自然和生命的一种表示形式,这些数据还记录了人类的行为,包括工作、生活和社会发展.今天,数据被快速大量地生产并存储在...

美姑县15848857710: 一名优秀的数据分析师是怎样炼成的 -
豆茂百可: 近些年,互联网公司对数据分析师岗位的需求越来越多,这不是偶然.过去十多年,中国互联网行业靠着人口红利和流量红利野蛮生长;而随着流量获取成本不断提高、运营效率的不断下降,这种粗放的经营模式已经不再可行.互联网企业迫切...

美姑县15848857710: 随着数据科学家的崛起哪些人的地位将发生动摇 -
豆茂百可: 随着数据科学家的崛起, (C)的地位将发生动摇.A、国家领导人 B、大型企业C、行业专家和技术专家 D、职业经理人 “数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程...

美姑县15848857710: 数据科学家/统计学家应该养成哪些好习惯 -
豆茂百可: 1、养成不轻信自己的分析结果,多用业务和常识去检验的习惯.2、阅读人文:数据科学不仅是一门科学,也是一门艺术.3、平时多了解行业信息和业务信息.4、要保持好奇心与多沟通.5、尽量多实践、多走一步.

美姑县15848857710: data science 是什么专业? -
豆茂百可: data science是一门及其综合的学科,也就是现在炒得很火的“大数据".其对口职位叫数据科学家,也就是“data scientist”, 而整个领域,应该就是叫“data science”,而其下有很多不同的方向.就像数学是一个领域,下面有代数学,几何学等等.在英国,邓迪大学从2013 年起设立“数据科学”科学硕士学位.从上述人才 的培养计划来看,数据科学家应该系统地掌握数据分析相关的技能,主要包括数学、统计学、数据分析、商业分析和自然语言处理等,具有较宽的知识面,具有独立 获取知识的能力,具有较强的实践能力和创新意识

美姑县15848857710: 什么是数据挖掘 -
豆茂百可: 由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为”计算机科学家、软件工程师和统计学家的混合体“.数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和...

美姑县15848857710: 冯.诺依曼理论要点是什么? -
豆茂百可: 要点: 1、计算机硬件设备由存储器、运算器、控制器、输入设备和输出设备5部分组成. 2、存储程序思想——把计算过程描述为由许多命令按一定顺序组成的程序,然后把程序和数据一起输入计算机,计算机对已存入的程序和数据处理后,输...

美姑县15848857710: 理论上说,什么是数据工程师,什么是数据科学家 -
豆茂百可: 我认为是可以的.现在的工程师就是从技术员一步一步走过来的.所谓的技术,不就是对某一原理在某一行业的运用么.原理理解透彻,并能解决实际应用时出现的问题,那么就是一个优秀的工程师.而科学家更偏重科研,去发掘原理,而不是对现有原理的应用.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网