微软大数据开发工程师,微软开发人员数量
微软开放了一个大规模的数据处理项目Data Accelerator,本来是内部使用的。自2017年开发以来,该项目已大规模应用于各种微软产品工作管道。根据微软的官方开源博客,数据加速器的一些方法可以更容易地在Apache Spark上构建流媒体管道:
即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。数据加速器支持从Eventhub和IoThub获取数据,下载数据到Azure blob、CosmosDB、Eventhub等。
无代码体验:您无需编写任何代码就可以设置警报和数据处理。通过规则设计器体验,您可以指定简单的和聚合的数据处理、标记和警报。
SQL查询:用SQL ——写复杂的处理,不用Scala工作。的内置扩展性模型也支持用户定义的函数,并利用Azure函数,例如,用于ML流。
实时查询:通过运行传入的数据样本,在几秒钟内验证您的查询,从而节省设置和测试管道处理的工作时间。
数据加速器不仅仅是EventHub和数据库之间的管道。它允许用户在继续流式传输的同时重塑传入事件,然后将同一事件的不同部分路由到不同的数据存储,同时提供整个管道状态的健康监控和警报。
Data Accelerator还提供了配置UI和规则/查询设计器的体验,因此用户无需编写任何代码即可启动并运行。
此外,任何处理流数据的人通常需要使用滑动窗口来处理数据,或者处理延迟到达的数据,或者随着时间积累数据。数据加速器支持并简化了这些高级功能的使用。
最后,微软提到,Data Accelerator支持dev-test loop的快速验证周期,其中本地采样事件运行的查询可以迭代修正到部署前可用,这可以节省大量测试工作流水线处理的时间。