0

    复杂数据集搜索与对比的两种高效可视化分析工具

    2023.07.11 | admin | 211次围观

    在大规模数据集中完成复杂的搜索与对比是一个巨大的难题,传统的繁复检查程序让不少研究人员望而生怯。Zenvisage和ShapeSearch两种可视化工具能够在一定程度上解决这类难题,提高研究中的数据处理效率。

    数据可视化工具现有挑战

    数据可视化是数据分析人员探索数据的主要手段。在过去几年里可搜索相似图片的软件,数据可视化工具如的可用性和可视化编码能力有了巨大的发展,比如Tableau和Excel等,但对于在大型复杂数据集中搜索模式、趋势和见解来说,现有的数据可视化工具仍有较大限制。

    数据分析人员们利用这些工具的方法较为统一,一般是将他们的数据加载到可视化工具中,并反复生成可视化,直到工具生成所需的模式或见解。

    不幸的是,随着数据集的规模和复杂性的增加,这种重复的手动生成过程变得痛苦、乏味和耗时。即使在中等规模的数据集中,数据分析师也可能需要生成并检查多达数万个可视化图,而所有这些重复都是为了测试一个假设,这对数据探索来说是一个严重的障碍。

    一个基因组数据分析中的例子可以体现出这个可视化搜索问题。

    基因组研究人员经常研究基因,比如,基因如何影响临床试验结果,基因的行为如何受到特定药物的影响等。又或者对于一个给定的,由临床试验结果组成的数据集,研究人员通常希望找到能够直观地解释这些结果差异的基因。

    为了做到这一点,目前的工具需要研究人员手动生成成千上万的散点图,其中x轴和y轴分别代表一个基因,每个结果在散点图中被描述为一个点,最终帮助研究人员确定是否可以在散点图中清楚地区分结果。

    同样,研究人员也需要在研究药物对疾病治疗的影响的同时,研究基因表达的变化。为此,他们经常探索趋势线可视化,一个点对应于一个基因,x轴是天数,y轴是表达值。

    当受到外部因素的影响时,基因可以被诱导上调或被抑制下调,又或者在一定的时间窗口内可以同时具有这两种模式。

    基于对领域的理解,研究人员首先需要假设受影响基因应该出现的预期表达变化。然后,他们生成数千个可视化图像,每个基因对应一个图像,之后再手动检查这些以寻找假设中的模式。

    除了基因学,在天文学、材料科学和公共卫生等其他领域也可以看到这种繁复的操作流程,在这些领域,分析人员手动阅读数千个可视化图来搜索每个理想假设。在大多数这些场景中,常见的主题是手动检查大量生成的可视化图,以匹配特定的可视化模式。

    如图1所示,这个可视化搜索问题有两个挑战。

    首先,用户很难指定他们感兴趣的可视化的搜索空间,这迫使他们需要手动生成大量的可视化集合。

    空间可视化的程度取决于X轴和Y轴的可能属性、聚合函数和可能的数据子集的数量。随着数据中属性的大小和数量的增加,这个空间呈指数级增长。

    图1

    第二个挑战是处理可视化匹配。在给定的需要关注的特定模式中,用户通常会同样注意到与该模式密切匹配的可视化子集。胆儿,现有的可视化工具的表达能力不足以解决这两个难题。

    解决现有问题的两种解决方案

    Zenvisage能将用户想要的高级描述作为输入,自动识别相关的可视化。同时具有交互界面,支持用户通过草图快速搜索简单的模式。

    为了表达更复杂的搜索枚举和匹配,Zenvisage支持ZQL,这是一种富有表现力的可视化探索语言,能允许用户使用一组基于可视化模式的核心原语来操作可视化的集合,比如比较、过滤和排序等。有了ZQL,用户就可以使用两行或三行来描述复杂的可视化搜索任务。

    虽然Zenvisage是解决可视化搜索问题的有用的第一步,但可视化匹配的潜在问题仍然没有得到解决。

    Zenvisage使用标准的相似性度量进行匹配,比如欧几里得距离等,因此当所需模式未指定确定或近似时的搜索时,它仍缺乏足够的灵活性。

    为了支持更灵活的查询需求,研究人员进一步开发了ShapeSearch,这是一个模式搜索系统,支持多种机制来帮助用户表达和搜索所需的视觉模式。

    ShapeSearch集成了一个富有表现力的形状查询代数,该代数由基于形状的原语和运算符组成,可以用于表示趋势线中的各种模式。

    ShapeSearch支持多种规范机制,这些机制能在内部被转换为形状查询代数表示,ShapeSearch在其中作为自然语言接口,以及一个复杂的解析器和转换器,可以将查询条件转换为代数。

    ShapeSearch还支持简单模式的草图界面,能绘制趋势精确匹配的可视化结果。

    为了满足更复杂的需求,系统提供了一种可视化的正则表达式语言,能在无法通过自然语言或草图表达中完成查询。随着用户需求和模式复杂性的发展,这三个接口可以同时使用和互换使用。

    视觉数据探索系统Zenvisage与ZQL

    Zenvisage是一个可视化分析系统,它有一个用于搜索具有简单模式的可视化交互界面,以及用于更复杂查询的表达性查询语言。

    图2显示了加载了房地产数据集的Zenvisage的交互搜索界面。

    图2

    算法的第一步是属性选择。在这一个步骤中,用户可以为感兴趣的可视化指定所需的x轴属性和y轴属性。在图中,用户可以将X轴指定为季度,也就是时间,Y轴则被指定为房地产销售价格。

    复杂数据集搜索与对比的两种高效可视化分析工具

    此外,用户还需要指定类别,这个变量用户正在操作的候选可视化空间索引。图中选择的类别是“metro”,用以表示一个都会区或乡镇。在图1a中,这个类别被描述为“Z”。

    系统算法的第二步是对典型趋势和异常趋势的总结。一旦用户选择了X、Y和类别,Zenvisage就会立即在框2中填充典型的,或者具有代表性的跨类别趋势和异常值。

    从图2不难看出,算法在不同的城市,即类别中发现了三种典型的趋势,一种对应于中间的峰值;一种对应于逐渐增加的趋势;还有一种则对应于先增加后减少的趋势,大多数其他趋势被发现与这三种趋势中的一种相似。离群可视化则有大量看似随机的尖峰。

    系统算法的第三步是绘图或拖放画布。在可编辑画布中,用户可以绘制他们正在寻找的形状,或者将显示的可视化效果之一拖放到画布中。通过这种方式,用户能表明他们希望看到的结果,算法就会以此为基础开始相似性搜索,当然,用户还可以自由编辑绘制的图案。

    系统算法的第四步就是呈现相似度搜索结果。一旦用户完成了框3中的交互,框4中就会呈现出与框3中趋势最相似的可视化结果,这个结果会根据不同的类别按相似性排序。

    Zenvisage允许用户在三种不同的相似度指标之间进行选择。目前系统提供的三个度量是欧几里得距离、DTW和分割。总的来说,系统的交互式搜索界面通过绘制草图和拖放,满足简单的模式搜索需求,通过代表性和离群模式提供上下文。

    然而,当涉及到更复杂的数据探索需求时,Zenvisage提供的表达能力有限。在绘制草图之前,用户需要将X和Y轴设置为特定的属性,这就使得在广泛的X和Y属性范围内,系统很难完成可视化的搜索。

    除此之外,Zenvisage在不使用绘图画布的情况下,很难比较两个可视化图,系统也不能指定涉及同时搜索多个模式的多步骤查询。

    为了支持这些更复杂的需求,研究者在Zenvisage基础上引入了第二种模式,即ZQL。

    在匹配可视化方面,Zenvisage以及其他可视化查询工灵活性都较为有限。而ZQL能够解决柔性形状匹配问题。

    形状查询系统ShapeSearch

    ShapeSearch为用户提供了强大而灵活的机制,可以搜索具有所需形状的趋势线可视化图。

    ShapeSearch系统有一个用于组合形状查询的交互界面。图3描述了在基因组学数据查询实例中ShapeSearch的交互界面。

    图3

    在基因组学数据查询中,用户需要搜索由于药物的影响而被抑制的基因,这些基因在其基因表达中,有特定的形状表现,具体表现为首先上升,然后下降,最后再次上升,按照这个顺序,目标可分析图需要同时有三种模式:上升,下降和上升。

    要搜索这个形状,用户首先需要通过左侧基于表单的选项加载dataset1,然后选择要探索的可视化空间,具体方法是将x轴设置为时间,将y轴设置为表达式值,最后将类别设置为基因。

    类别属性的每个值都会产生具有给定x轴和y轴的候选可视化。因此,类别属性定义了用户在系统上匹配形状的可视化空间。

    ShapeSearch支持三种形状规范机制,分别是自然语言、正则表达式,即regex以及在画布上绘制的草图。

    通过在画布上绘制所需的形状作为草图,用户可以使用距离度量,如欧几里得距离或动态时间翘曲,搜索精确相似的可视化图。在用户完成草图绘制后,ShapesSearch将输出与结果面板中绘制的草图相似的可视化结果。

    在自然语言(NL)规范中,为了搜索与模式近似匹配的可视化,用户可以使用自然语言作为输入。例如,如图3框2b所示,上述基因组学实例中的期望形状可以用语言描述为:向我展示具有上升,然后下降,然后增加结果图的基因”。

    同样,分析宇宙学数据的科学家也可以简便地使用“寻找具有尖锐亮度峰值的物体”来搜索超新星,也就是明亮的恒星爆炸。

    在正则表达式(regex)方面,对于涉及难以使用自然语言,或难以草图表达的复杂模式组合的查询,用户可以发出类似正则表达式的查询,直接映射到结构化的内部表示,由ShapeSearch原语和操作组成。

    在探索过程中,用户还可以根据查询的复杂性互换地选择规范机制。对于NL和正则表达式,ShapeSearch还支持自动完成功能,以引导用户进行目标查询,开发者使用术语用户查询来指代使用任何规范机制提交的查询。

    ShapeSearch会在后端进行解析,之后将用户查询转换为ShapeQuery,这是查询的结构化的内部表示,由代数中支持的操作符和原语组成。

    除此之外,后端支持歧义解决器,该歧义解决器使用一组规则,自动解决语法和语义歧义可搜索相似图片的软件,以及将解析后的查询转发给用户,以此进行进一步的更正和验证。经过验证的查询最终由执行引擎优化并执行,结果面板会将最匹配ShapeQuery的顶部可视化图呈现给用户。

    在ShapeSearch中,目前用户需要在发出ShapeQueries之前指定X和Y属性。但是,在某些场景中,用户可能事先不知道X和Y属性,或者他们可能希望在不同的属性组合上搜索相同的形状。

    此外,用户也可能会想同时发出涉及多个形状的多步骤查询,比如查找挂牌价格趋势下降但房屋销售价格趋势上升的区域。

    为了满足这种复杂的数据探索需求,研究人员提出了新的设想,即将ZQL与ShapeQuery集成在一起。实现这种集成一个简单的选择是将ShapeQuery作为ZQL进程列的一部分功能原语。例如,图4描述了一个集成查询,能用于查找列表价格趋势下降但销售价格趋势增加的区域。

    图4

    ZQL和ShapeQuery的结合还能增加ZQL的表现力和效率。功能原语目前被视为黑盒,因此在Zenvisage中没有进行优化。而通过添加对形状查询的支持,Zenvisage可以利用优化的形状匹配算法来有效地处理可视化。

    参考文献:

    Tarique Siddiqui, Paul Luh, Zesheng Wang, Karrie Karahalios, and Aditya G. Parameswaran. 2022. Expressive querying for accelerating visual analytics. Commun. ACM 65, 7 (July 2022), 85–94.

    :8040/doi/10.1145/3535337

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论