下面哪一个场景中可以用Flume来做数据采集和流化?()
A.可以用于消息持久化,且需要支持可扩展和并行数据处理时
B.当需要从多个源采集日志数据,然后聚合、写入HDFS时
C.可以用于在ApacheHadoop和结构化数据仓库之间高效传输批量数据时
D.可以用于大数据集的批处理
B
解析:
解析:开源的Flume系统是一个通用的流式数据收集系统,可以将不同数据源产生的流式数据近实时地发送到后端中心化的存储系统中,具有分布式、良好的可靠性以及可用性等优点。总结起来,Flume系统适用于解决日志收集过程中面临的以下场景:
数据源种类繁多:各种服务均会产生日志,这些日志格式不同,产生日志的方式也不同(有的写到本地日志文件中,有的通过HTTP发到远端等)。
数据源是物理分布的:各种服务运行在不同机器上,有的甚至是跨机房的。设计日志收集系统时需考虑这种天然的分布式特征。
流式的,不间断产生:日志是实时产生的,需要实时或近实时收集到,以便于后端的分析和挖掘。
对可靠性有一定要求:日志收集过程中,希望能做到不丢失数据,或丢失可控的少量数据。