本篇文章1332字,读完约3分钟

阿里云国际站经销商,主营阿里云,腾讯云,华为云,亚马逊aws,谷歌云gcp,微软云az,免费开户,代充值优惠大,联系客服飞机@jkkddd

通过DataWorks将HBase数据同步到Elasticsearch

步骤一:环境准备
创建阿里云Elasticsearch实例,并开启实例的自动创建索引功能。
具体操作,请参见创建阿里云Elasticsearch实例和配置YML参数。本文以通用商业版实例为例。
创建DataWorks工作空间。
创建工作空间时,所选地域需要与阿里云Elasticsearch一致。具体操作,请参见创建工作空间。
创建HBase集群并准备测试数据。
创建HBase集群时,所选地域、专有网络和虚拟交换机要与阿里云Elasticsearch保持一致。本文以创建标准版HBase集群为例,具体操作,请参见购买集群。
测试数据
使用put命令向数据表中插入数据,例如:put "student", "row1", "name:a", "xiaoming"。
使用scan命令查看表中的数据,例如:scan "student"。
步骤二:购买并创建DataWorks独享资源组
区间
登录DataWorks控制台。
选择相应地域后,在左侧导航栏,单击资源组列表。
购买独享数据集成资源。
创建一个独享数据集成资源。
具体操作,请参见新增和使用独享数据集成资源组。本文使用的配置如下,其中资源组类型选择独享数据集成资源组
单击已创建的独享资源组右侧的网络设置,参见绑定专有网络,为该独享资源组绑定专有网络。
独享资源部署在DataWorks托管的专有网络中。DataWorks需要与HBase集群和Elasticsearch实例的专有网络连通才能同步数据。而HBase集群和Elasticsearch实例在同一专有网络下,因此在绑定专有网络时,选择Elasticsearch实例所在专有网络和交换机即可。
单击已创建的独享资源组右侧的修改归属工作空间,为该独享资源组绑定目标工作空间。
具体操作,请参见新增和使用独享数据集成资源组。
步骤三:配置HBase白名单
无论是公网访问,还是VPC内网访问,均需要先将访问HBase的客户端IP地址加入到白名单中,才能连接到HBase集群。本文需要使用步骤一中创建的独享资源组,通过VPC内网访问HBase集群,因此在添加数据源前,需要将独享资源组绑定的交换机网段添加至HBase的访问白名单中,具体操作请参见设置白名单和安全组。
步骤四:在DataWorks中添加HBase和Elasticsearch数据源
进入DataWorks的数据集成页面。
在DataWorks控制台的左侧导航栏,单击工作空间列表。
找到目标工作空间,单击其右侧操作列下的数据集成。
在左侧导航栏,单击数据源。
在数据源管理页面,单击新增数据源。
在新增数据源对话框的大数据存储区域中,单击HBase。
在新增HBase数据源对话框中,填写数据源名称和配置信息。
使用的HBase版本不同,您需要填写不同的配置信息:
标准版及以下的版本:使用默认的配置信息,即ZK链接地址,同时需要手动增加hbaseVersion属性。