Dataiku 一直致力于保持现代分析创新的前沿。这意味着它通常可以吸引来自 Alteryx 等其他自助服务应用程序的用户,而且我一直在撰写文章来帮助简化过渡。您可以在此处查看有关从 Alteryx 迁移到 Dataiku 的系列文章。
在这个系列的新附加内容中,我很高兴回顾 Dataiku 持续发布的一些关键功能,这些功能不仅使从 Alteryx 的切换更加容易,而且还开辟了全新的工作方式。特别是,我将重点介绍解决 Alteryx 中更高级功能并带来一些生活质量改善的功能。然后,我们将以在 Dataiku 中使用 GenAI的全新方式结束。
让转换更加简单:多行配方和重复食谱
Dataiku 最近添加了两个新功能,使迁移更加容易。首先是 Dataiku在其准备配方中的计算中引用前几行的新功能。此功能与 Alteryx 使用其自己的多行公式工具实现的功能非常相似。
过去,很多工作都可以在窗口配方中完成,但现在有一种全新的方法可以完成诸如生成唯一行 ID 或获取当前行为空时的上一个值等操作。这就像在准备配方中创建一个公式一样简单,现在您可以直接指向上一行。如果我有一个名为Sales 的列,并且我想引用上一行的值,那么只需输入numval(“Sales”,1 )即可。就像准备配方中的其他逻辑一样,您可以立即在样本数据上看到结果,而无需运行管道。
在 Dataiku 中轻松创建行 ID 字段
轻松创建行 ID 字段!
接下来是能够重复某些逻辑多次,以执行更高级的操作,而无需编 秘鲁电话号码数据 写代码。在 Alteryx 中,这通常通过使用批处理或迭代宏来完成。想象一下尝试轻松获取最新文件以进行导入或动态运行多个 SQL 查询并将结果堆叠在一起。现在,在 Dataiku 中,借助动态配方重复,这变得更加容易。
只需在 Dataiku 配方本身中进行一些配置,我就可以定义如何重复。与 Alteryx 将值输入控制参数的能力类似,Dataiku 提供了在配方配置中指向“参数”数据集的能力。现在,世界就是您的无代码循环宝库!
从参数数据集循环执行 SQL 查询
从参数数据集循环执行 SQL 查询
了解数据流:质量、沿袭和流区域
无论使用情况如何,能够跟踪和了解数据始终很重要,尤其是在事情进展不尽如人意时。Alteryx到 Dataiku 博客系列中的这篇文章讨论了数据质量检查以及它们如何触发警报并导致流程的不同部分响应运行。最近,这些检查有了很大的改进,可以提供更大的灵活性。特别是,我喜欢比较两个关键指标的选项,看看一个指标是否大于另一个指标,甚至跨数据集进行比较,以便于协调。
为了了解流程中问题的影响,Dataiku 还增加了一种了解数据沿袭的新方法。想象一下,如果您发现数据质量出现错误,然后能够立即追踪该字段的创建位置以及哪个源数据集出现问题。这个强大的新视图可用于调查 Dataiku 中的任何数据集,甚至可以在下游共享结果时跟踪链接项目之间的变化。