散点图。您可能不知道它们的名称,但是如果您在线花费超过10分钟,则到处都可以找到它们。它们在新闻报道中,数据科学界中很受欢迎,而且,最重要的是,它们在互联网上引起人们对煎饼的消化品质的关注。

通过将数据描绘为两个轴上的大量点,散点图可以有效地可视化趋势,相关性和异常情况。但是,将它们用于大型数据集通常会导致点重叠,从而使它们或多或少难以理解。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员表示,他们已经使用新的开源系统解决了这一问题,该系统使得能够基于具有数十亿个不同数据点的大规模数据集创建交互式散点图。
该系统称为“ Kyrix-S”,具有一个界面,该界面使用户可以像在查看Google Maps上的方向一样平移,缩放和在散点图上跳转。
为大型数据集开发的其他系统通常专注于非常特定的应用程序,而Kyrix-S具有足够的通用性,可以适用于各种可视化样式,包括热图,饼图和雷达样式的图形。(该团队表明,与类似的最新创作系统相比,该系统使用户可以用不到800%的代码创建可视化文件。)
用户只需编写几十行JSON(一种人类可读的文本格式)即可生成散点图。
首席开发商陶文博,博士 麻省理工学院CSAIL的一名学生给出了一个静态的《纽约时报》散点图(如下)的示例,他说通过像Kyrix-S这样的系统进行交互可以改善这种散点图。
“在这些散点图中,您可以看到总体趋势和离群值,但是绘图的过度绘图和静态性质限制了用户与图表进行交互的能力,” Tao说。
静态的《纽约时报》散布图。
相反,Kyrix-S可以生成一个版本(如下),该版本将数据置于多个缩放级别,从而可以与每个县进行交互。为避免过度绘图,Kyrix-S的散点图还仅显示最重要的示例,例如人口最多的县。
目前,麻省理工学院开发的数据集成平台Data Civilizer 2.0正在使用Kyrix-S 。
还使用了较早的版本来帮助马萨诸塞州总医院分析庞大的大脑活动数据集(EEG),其时钟频率为30 TB,相当于超过50,000小时的数字音乐。(该研究的目标是在给定一系列2秒EEG片段的情况下,训练一种预测癫痫发作的模型。)
展望未来,研究人员将使Kyrix-S适应图形用户界面的需求。他们还计划增加功能,以便系统可以处理不断更新的数据。
陶涛与麻省理工学院兼职教授麦克·斯通布雷克,研究员辛立侯和亚当·萨赫,Leilani Battle SM '13,PhD '17和塔夫茨大学的Remco Chang一起写了一篇关于Kyrix-S的论文。它将在10月25日的IEEE VIS数据可视化会议上进行虚拟演示。