java数据采集java数据采集框架

2024-01-08 07:35:19 浏览

Flume 是 Apache 旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建,所以依赖 Java 运行环境。

java数据采集java数据采集框架

Flume 最初是由 Cloudera 的工程师设计,用于合并日志数据的系统,后来逐渐发展用于处理流数据事件。

Flume 设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个 Agent 的网络,支持数据路由。

每一个 agent 都由 Source,Channel 和 Sink 组成。

爬虫都是基于现有的框架来开发的,基于java语言实现的爬虫框架很多,这里列举一个:WebMagic,它的架构设计参照了Scrapy,应用了HttpClient、Jsoup等Java成熟的工具,包含四个组件(Downloader、PageProcessor、Scheduler、Pipeline),Spider是WebMagic内部流程的核心,上面的四个组件都相当于Spider的一个属性,通过设置这个属性可以实现不同的功能

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。