云数据迁移是指将现有内部数据移至新的云存储位置的过程。大多数应用程序在向云中迁移的过程中需要使用数据存储。
存储迁移通常采用以下三种方式之一,但组织也可以同时执行所有这三种迁移。
一次性迁移。
组织在云中启动新的工作负载之前可能需要执行此类迁移。
侧重于内部部署的混合模式。
在这种情况下,旧式数据存储可能会随着时间的推移而迁移到云。
侧重于云的混合模式。
混合方法一般是新架构的原生云项目与旧式内部数据组合运用的结果。
大部分项目都面临数据传输的严酷现状。如何在最大限度减少中断、成本和所用时间的情况下,轻松地从当前位置移至新的云环境?要移动 GB、TB 或 PB 量级的数据,最明智的方法是什么?
潜在的根本问题是:可以迁移多少数据?迁移速度和迁移距离是多少?使用以下公式可得出最理想情况下的结果:
天数 =(总字节数)/(每秒兆位数 * 125 * 1000 * 网络使用率 * 60 秒钟 * 60 分钟 * 24 小时)
例如,如果您要使用 T1 连接 (1.544Mbps) 将 1TB(1024 * 1024 * 1024 * 1024 字节)数据移入或移出 AWS,那么从理论上讲,通过您的网络连接(80% 网络使用率)加载该数据所需的时间为至少 82 天。
别紧张,我们对此驾轻就熟。我们发现客户通常会采用两种方法完成这一过程:使用非常基础的非托管迁移工具来迁移数据,或者选择一种 Amazon 的服务套件。
一般而言,为了获得最佳结果,我们建议采用以下方法:
| 连接 | 数据规模 | 方法 |
| 小于 10Mbps | 小于 500GB | 非托管 |
| 大于 10Mbps | 大于 500GB | 托管 |
您可以采用简便的一次性方法将小规模数据从您的站点移入 Amazon 的云存储。
- rsync。客户使用此开源工具将数据直接复制到 S3 存储桶中。
- S3 命令行界面。客户使用 Amazon S3 CLI 编写命令,将数据移至 S3 存储桶中。
- Glacier 命令行界面。客户使用 Amazon Glacier CLI 将数据移至 Glacier 文件库中。
Amazon 开发的这套迁移服务包括多种不同的方法,可帮助您更高效地管理这项任务。这些方法可分为以下两类:
- 优化或更换 Internet。这就像满载磁盘的半挂卡车在高速公路上飞驰,千万不要低估由此产生的带宽。这些方法非常适合移动大型存档文件和数据湖,对于带宽和数据量极大的情况也是理想之选。
- S3 友好接口。利用这些方法,您可以轻松地将 S3 用于现有的本地应用程序。这些方法不会一次性迁移大型数据集,而是帮助您将现有的备份和恢复等处理流程或持续的物联网流直接与云存储集成。
| 如果您需要: | 请考虑: |
|---|---|
| 经过优化或更换的 Internet 连接,以便: |
|
直接连接至 AWS 区域数据中心 |
AWS Direct Connect |
将 PB 级数据批量迁移到云中 |
AWS Import/Export Snowball |
长距离迁移包含增量更改的重复任务 |
Amazon S3 Transfer Acceleration |
| 直接接入 S3 的友好接口,用于: |
|
采用混合模式将数据缓存在本地(出于性能原因) |
网关(AWS 或合作伙伴) |
在尽可能不中断的情况下将备份或存档数据推送到云中 |
技术合作伙伴关系 |
收集并注入多个流式处理数据源 |
Amazon Kinesis Firehose |
您还可以组合运用服务以实现最佳结果。请参考以下示例:
多个 Snowball 并行运行
Direct Connect 与技术合作伙伴关系
Direct Connect 与 Transfer Acceleration
Transfer Acceleration 与 Storage Gateway 或技术合作伙伴关系
需要我们针对您的具体情况施以援手吗?让我们帮助您吧。
这些迁移方法会增强或更换 Internet,以便将数据从您当前的位置直接迁移至 Amazon 的数据中心。此方法不支持开发工作或 API,并且可能会影响您现有的内部流程。
了解有助于将内部技术扩展至云的Direct Connect 合作伙伴服务包。
客户可选择一个 Direct Connect 专用物理连接来加速其数据中心与我们的数据中心之间的网络传输。
您可通过 AWS Direct Connect 建立一个连接您的网络与任何一个有 AWS Direct Connect 的地域的专线联结。需使用业内规定的 802.1q VLAN 标准,可将这一专线联结分割成多个虚拟接口。这样您可通过同一个连接访问共享资源(如存储在使用公有 IP 地址空间的 Amazon S3 中的对象)和专有资源(如使用私有 IP 空间在 Amazon Virtual Private Cloud (VPC) 中运行的 Amazon EC2 实例),同时又能在共享和专用环境之间保持网络隔离。您可随时重新配置虚拟接口,满足不断变化的需求。
了解更多有关 Direct Connect 服务的信息。
Snowball 是一种 PB 级数据传输解决方案,它使用安全设备与 AWS 之间传输大量数据。使用 Snowball 可解决大规模数据传输的难题(包括高昂网络成本、较长传输时间和安全问题)。使用 Snowball 传输数据简单、快速、安全,并且成本可低至高速 Internet 费用的五分之一。
了解更多有关 Snowball 服务的信息。
|
|||||||||||||||||
Amazon S3 Transfer Acceleration 加快了通过公共 Internet 向 Amazon S3 传输数据的速度。不管距离多远或 Internet 状况如何,您都可以最大限度地利用带宽,并且无需提供特殊的客户端或专有网络协议。您只需更改与 S3 存储桶搭配使用的终端节点,即可自动实现加速。
这非常适用于在全球各地处理的重复任务(例如,媒体上传、备份以及定期发送到中央站点的本地数据处理任务)。
了解更多有关 Transfer Aceleration 的信息
有时中断不可避免。如果旧数据存储可随着时间的推移而逐渐迁移,或者新数据会从众多非云来源逐渐聚集,那么这些服务将会非常适用。这些迁移服务会利用或补充现有安装内容(如备份和恢复软件或 SAN),您也可以通过编程将 AWS Firehose 服务写入自己的应用程序。
网关位于内部,用于将您的环境链接至 AWS 云。如果出于性能或合规性方面的原因而需要将部分存储置于本地,但另外一些存储可卸载至 S3,那么存储网关就是针对这种混合情景的理想解决方案。
可以考虑将 AWS Direct Connect 服务与您的网关结合使用以确保实现最优性能。
AWS Storage Gateway 服务简化了 AWS 存储的内部采用。现有的应用程序使用行业标准存储协议连接至将数据存储在 Amazon S3 和 Amazon Glacier 中的软件设备。
- 数据将被压缩并安全传输至 AWS。
- 存储区域网络 (SAN) 配置可为存储或缓存的设备提供时间点备份(作为 Amazon EBS 快照)。
- 虚拟磁带库 (VTL) 配置可与您现有的备份软件配合使用,以实现 Amazon S3 中经济高效的备份和 Amazon Glacier 中的长期存档。
了解更多有关 AWS Storage Gateway 的信息。
AWS 已经就缩小传统备份和云之间差距的物理网关设备与很多行业供应商开展了合作。将现有的内部数据链接至 Amazon 的云,可以在不影响性能且不保存现有备份目录的情况下迁移数据。
- 无缝集成至现有基础设施
- 可提供重复数据删除、压缩、加密或 WAN 加速功能
- 在本地缓存最近的备份,通过文件库将所有数据移至 AWS 云
了解更多有关网关合作伙伴关系的信息。
Amazon Kinesis Firehose 是将流数据加载到 AWS 的最简单的方式。它可以捕获流数据并将其自动加载到 Amazon S3 和 Amazon Redshift,借助当前正在使用的现有商业智能工具和仪表板实现近乎实时的分析。这是一项完全托管的服务,可以自动扩展以匹配数据吞吐量,并且无需持续管理。它还可以在加载数据前对其进行批处理、压缩和加密,从而最大程度地减少目的地使用的存储量,同时提高安全性。您可以从 AWS 管理控制台轻松创建 Firehose 传输流、通过点击几下对其进行配置,以及开始将数据从成千上万个要不断加载到 AWS 的数据源发送到数据流中 – 所有这些操作只需几分钟即可完成。
了解更多有关 AWS Kinesis Firehose 的信息。