取消
清空记录
历史记录
清空记录
历史记录
数据可视化的道路上布满了不成见的圈套和迷宫,比来ClearStory Data的两位数据可视化开辟人员分享了他们总结出来的数据可视化开辟的7个不宣之秘,通俗开辟者领会这些方式能晋升视野,少走弯路。 数据可视化,特殊是基在Web的数据可视化的时期已到来了。近似JavaScript的可视化库如D3.js, Raphal,和Paper.js, 和最新阅读器所撑持的如Canvas和SVG,和使得那些曩昔只能由计较机专家和专业设计人员开辟的复杂的可视化变得愈来愈简单了。 数据可视化现在成了良多网站项目标必备功能。而近似在Platfora,Datameer, ClearStory Data和Chartio等草创公司则可以操纵基在阅读器的阐发平台融到数百万美元的投资。 数据可视化是数据摸索和数据表示的主要体例,但是,对数据可视化的开辟者来讲,仍然有良多挑战要去面临。这些迎接这些挑战的方式,则是良多专业的数据可视化开辟者不肯意让他人知道的奥秘。ClearStory Data的两位数据可视化开辟人员Nate Argrin和 Nick Rabinowitz分享了他们总结出来的数据可视化开辟的7个奥秘和在实践中若何应对的体例。 奥秘一: 实际中的数据常常很丑 年夜部门的数据可视化的教程,城市让你轻松地从一个原始数据集最先。不管你是进修根基的柱状图仍是力导向的收集图, 你的数据都是清洁的,颠末清算的数据。这些完善的JSON或CSV文件就像电视里的厨艺节目中的灶台那样清洁整洁。而现实上,当你在处置实际中的真实的数据是,你80%的时候得用来搜索,获得,载入,清洗和转换你的数据。如许的进程,有时辰可以用主动化的东西来完成。不外,差不多任何需要针对两个以上的数据集进行清洗的工作总会需要或多或少的人工的工作。有良多东西可以或许把XLS文件转化为XML的格局或把时候戳转换为其改日期格局。可是,要想把一个公司的内部利用的发卖类型与竞争敌手进行比对,或对输入毛病进行查抄,或对分歧的Encoding或OCR发生出来的文字进行查抄时,就只能靠手工来处置了。 东西和处置体例: 1)在数据可视化项目中给数据清洗留出足够的时候,特殊是在需要处置多个数据源,需要手工录入或OCR数据,进行分歧种别的配比,或需要处置一些非尺度格局时,需要留出更多的时候。 2)Google Refine是一个很好的数据清洗东西,虽然在有些处所,特殊是处置非表格化数据时有些不足。另外,还一些数据清洗专用的东西如Data Wranger 和 Mr. Data Converter。不外,良多的数据清洗工作依然需要你熟习剧本说话如Python或需要你在Excel里进行一些手工工作。记得把你的剧本存档,你今后必定用得上。 3)用简单的一些散点图或直方图来发现一些超正常规模的毛病数据。 奥秘二: 柱状图常常更好 和柱状图比起来,气泡图可以在一样的空间表示更多地数据,饼图可以更清楚地表示整体和局部的关系,树状图可以或许更好地表示分层的布局。但是,这些图在简单了然方面都没法与柱状图比拟。 在斟酌数据可视化设计方案时,我们要问本身的第一个问题就是:“这个方案比柱状图好吗?” 假如你需要在一个单一维度上可视化一个可量化的数据集,那末很少有此外体例能比得上柱状图。近似的,时候序列最好表示为线状图,而散点图一般用来表示两个线性怀抱的相干性。在数据可视化设计中,利用这些从18世纪以来就一向在利用的图风险最低。 而柱状图对进行数据比力的可视化来讲是最好体亚新体育例。由于我们人眼最习惯的比力体例就是将两个工具并排比力。 关在柱状图优先,其实揭露了数据可视化中一个最年夜的奥秘,那就是,那些最酷的可视化常常用途反而最小。 最求别致和美不雅的可视化常常带来一个问题,那就是数据的可理解问题。良多柱状图的替换图迫令人们用他们其实不善于的体例进行比力,如比力面积,角度,色采,或透明度等。这些比力,说好听的,是增添了比力的难度,说的严重一些,可能会对数据进行扭曲,致使利用者得犯错误的结论。 东西和处置体例: 1、不要等闲丢弃那些传统的可视化体例,假如这些体例可以或许表示你的数据。先尝尝柱状图或线状图,假如你的数据真的需要其他的再斟酌其他图。 2、理解其他情势的图的表示优势,好比,气泡图撑持更多地数据规模,饼图撑持局部全局的对照,树状图可以或许撑持分层布局等等。 3、柱状图是可视化最轻易的图形之一,你可以手工编写一段HTML代码,仅仅利用CSS或很少许的JavaScript,或从Excel里面的一个公式,便可以生成一个有用的柱状图来。 奥秘三: 真实数据不成替换 对一个数据集进行清洗和格局化已很繁琐了,假如你需要设计一个基在多个数据集的可视化呢? 好比你需要把公司分歧部分的数据进行可视化,而这些部分各自有各自的数据库,并且你也没有时候手工把每一个数据集进行清洗。这时候候,人们的第一设法多是抓一些Demo的数据来进行可视化。并且你的可视化库里可能就有一些尺度的样本数据。 很不幸,真实数据不成替换。Demo数据一般遵守正态散布并且数据量有限。是为了展现可视化用的。而一个看上去完善的柱状图,其实不能帮忙你解决那些数据缺掉,异常数据或实际中的真实问题。假如你过度依靠Demo数据,当你用真实数据时,你就会发现你的数据可视化设计其实不能真正知足你的数据阐发或数据表示的需求。 东西和处置体例: 1、假如你没法拜候全部数据集,无妨先尝尝从真实数据集中随机取些样本数据。 2、保存无效或缺掉数据,假如你的数据集在可视化前禁绝备进行数据清洗,那末也不要清洗样本数据。 3、真实数据集或许过年夜。在你利用样本数据时,在生成终究的可视化图前,等比例调剂样本数据范围。 奥秘四:细节的处所才最头痛 如上图,当你程度摆列数据标识时,数据标识会看不清,假如扭转90度,数据标识是看清晰了,不外又华侈了很年夜一块空间。选择一个适合的数据标识格局对有些可视化来讲是个解决方案,不外也不是对所有方案都合用。 设计数据标识,注释或横轴纵轴凡是都是在初始可视化后才斟酌的。不外这些元素对可视化来讲很是主要,并且可能会很坚苦或需要年夜量时候才能把它们做好。特殊是在你没法事前预知你的数据的环境下。 在设计你的可视化的时辰,你需要留出相当部门的空间以便你可能需要添加标识只用,凡是要在你的图四周留出相对较年夜的空间。 横纵轴上的标识要包管它们不彼此笼盖并且可读。假如需要的话,可以将标识进行扭转来增添可读性。假如有一块空间标识过在集中,而你又需要这些标识可读,你可让斟酌把标识离它们所指的元素远一些,然后用毗连线把标识和元素连起来。别的一种体例就是把标识整合成一个组,用标识东西提醒的体例来进行可视化。假如标识的文字太长,可以斟酌进行缩写或把超越的文字剪失落等体例。 近似的,对图的注释也需要事前打算好。最简单的体例就是在可视化中保存一部门区域来便利添加注释。不外,如许意味着你的图所占的部门就会减小。为了保存空间,把注释放在图上的空白部门。或把注释做成可拖拽,如许用户可以把注释移开来看注释粉饰的部门。 东西和处置体例: 1)在设计时把数据标识,数据轴和注释的空间在图上留好。 2)对数据标识,界说最年夜字符数,超越部门需要裁失落。把附近的标识组合在一路,在用户点到时再显示。 3)对长注释,可以斟酌用转动或睁开的体例 4)不管若何,不要轻忽这些元素。数据标识在你专注图形设计的时辰,可能不是你的最首要斟酌,不外它们对可视化的用户来讲很是主要。 奥秘五:需要的时辰才用动画 可视化的设计者常常但愿可以或许在终究设计上加上动画。动画是一种毗连数据和转变趋向的很是有效的东西。 不外动画也经常会致使对你的数据的毛病理解。你需要对它会若何影响你的终究结果进行评估,而不是简单地在最后加上动画结果。动画最合适表示的,是揭露数据若何在分歧状况下组合在一路,若何随时候转变或是若何彼此影响的等场所。 一般的设计原则是,动画要简单,可猜测而且可以从头播放。让用户可以或许屡次播放动画,可让他们看到动画元素从哪里最先到哪里住手。 要避免分歧元素在移动中相互笼盖,不要让元素的活动不成猜测。对复杂的动画,研究注解,可以把动画分化为几个分歧的阶段,在每一个阶段暂停一会给用户一些时候来体味。如许有助在提高用户的理解。 东西和处置体例: 1、尽量让动画简单 2、假如动画复杂或有良多动画元素,可以斟酌分阶段动画 3、一最先动画常常可以或许给人新颖感,不外会很快让用户感应厌倦。不要仅仅由于你会加动画就在你的可视化你加上动画。 奥秘六: 数据可视化不是阐发 数据可视化可以发生一些阐发成果,不外需要指出的是,可视化是一个辅助阐发的东西,而不是数据阐发的替换,它也不是统计的替换: 你的图形可能揭露了一些数据差别或数据的相干性。不外,要得出存在这些差别和相干性的靠得住结论,还需要应用统计的方式。要对你的数据真正领会,需要阐发的技术,和专业的常识。不要期望可视化可以或许给你这些。是以,在进行可视化项目标时辰,要调剂客户或你的CEO的期望值。 东西和处置体例: 1、除非你就是数据阐发师,你对数据可视化得出的结论不要等闲下判定。假如需要进行结论,最好找一个统计师或专业人士一路验证后再给结论。 2、一些藐小的设计改变,好比调色板的转变,对某个变量的可视化体例等,都可能改变可视化得出的结论。假如你用可视化进行阐发,必然要尝尝多种可视化体例,而不要依靠在一种体例。 3、Stephen Few的 书“Now You See It”里面介绍了操纵可视化进行贸易阐发的体例,包罗对开辟者若何设计可供阐发利用的可视化东西的一些建议,读者可以参考。 奥秘七: 数据可视化不但仅是编程 此刻年夜量的可视化编程库和教程使得通俗的人员在进行基在Web的可视化中,也能够设计出高质量的可视化产物。但是,要想真正设计一个可以或许供给深切看法,或可以或许清晰表达的可视化产物,除编程以外,还需要良多其他的技术。好比图象设计,数据阐发,交互设计,和对人们认知的领会期待。这些技术,是那些可视化编程库供给不了的。不外,好动静是,假如你对峙采取一些数据可视化的根基原则的话。 你也不需要对这些技术领会太多。对初学者来讲,需要对峙一些最根基的原则,好比,尽可能利用柱状图,不要把圆半径设置按线性比例设定(编者:在面积比力时会给用户毛病理解),设计要简单(不要用3D,罕用动画,不要用暗影)等。 依照一些好的可视化样本,初学者也能够缔造出好的可视化作品来。