文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何使用brotli压缩大文件

2023-06-04 14:47

关注

本篇文章给大家分享的是有关如何使用brotli压缩大文件,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

大文件问题

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制,比如未经裁剪的 serverless-chrome ,类似的还有 libreoffice ,此外常见的还有机器学习训练的模型文件。
目前解决大文件问题有三种方法

  1. 采用更高压缩比的算法,比如本文介绍的 brotli 算法

  2. 采用 OSS 运行时下载

  3. 采用 NAS 文件共享

简单的比较一下这三种方法的优劣

方法优点缺点
高密度压缩发布简单,启动最快上传代码包较慢;要写解压代码;大小受限制不超过 50 M
OSS下载解压后文件不超过 512 M需要预先上传至 OSS;要写下载和解压代码,大概 50M/s 的下载速度
NAS文件大小没有限制,无需压缩需要预先上传至 NAS;VPC 环境有冷启动时延(~5s)

正常情况下如果代码包能控制在 50M 以下启动较快。而且工程上也比较简单,数据和代码放在一起,不需要额外的写脚本去同步更新 OSS 或者 NAS。

压缩算法

Brotli 是 Google 工程师开发的开源压缩算法,目前已经被新版的主流浏览器支持,作为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其他常见压缩算法对比基准测试。

如何使用brotli压缩大文件
如何使用brotli压缩大文件
如何使用brotli压缩大文件
如何使用brotli压缩大文件

从上面三幅图我们可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的压缩比,接近于 gzip 的解压速度,以及最慢的压缩速度。

然而在我们的场景对于压缩慢这一缺点不敏感,压缩任务只要在开发准备物料的阶段执行一次就好了。

制作压缩文件

下面我先介绍一下如何制作压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。

安装 brotli 命令

Mac 用户

brew install brotli

Windows 用户可以去这个界面下载,https://github.com/google/brotli/releases

打包并压缩

打包前两个文件大小分别为 7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21]╰─  lltotal 213840-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

使用 GZip 打包并压缩,大小为 44 M。

╭─ ~/D/test1[◷ 18:15:33]╰─  tar -czvf chromedriver.tar chromedriver headless-chromiuma chromedrivera headless-chromium╭─ ~/D/test1[◷ 18:16:41]╰─  lltotal 306216-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver-rw-r--r--  1 vangie  staff    44M  3  6 18:16 chromedriver.tar-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

tar 去掉 z 选项再打包一遍,大小为 104M

╭─ ~/D/test1[◷ 18:16:42]╰─  tar -cvf chromedriver.tar chromedriver headless-chromiuma chromedrivera headless-chromium╭─ ~/D/test1[◷ 18:17:06]╰─  lltotal 443232-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver-rw-r--r--  1 vangie  staff   104M  3  6 18:17 chromedriver.tar-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

压缩后的大小为 33M,相比 Gzip 的 44M 小了不少。耗时也非常的感人 6 分 18 秒,Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08]╰─  time brotli -q 11 -j -f chromedriver.tarbrotli -q 11 -j -f chromedriver.tar  375.39s user 1.66s system 99% cpu 6:18.21 total╭─ ~/D/test1[◷ 18:24:23]╰─  lltotal 281552-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver-rw-r--r--  1 vangie  staff    33M  3  6 18:17 chromedriver.tar.br-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

运行时解压缩

下面以 java maven 项目为例

添加解压依赖包

<dependency>    <groupId>org.apache.commons</groupId>    <artifactId>commons-compress</artifactId>    <version>1.18</version></dependency><dependency>    <groupId>org.brotli</groupId>    <artifactId>dec</artifactId>    <version>0.1.2</version></dependency>

commons-compress 是 apache 提供的解压缩工具包,对于各种压缩算法提供一致的抽象接口,其中对于 brotli 算法只支持解压,这里足够了。org.brotli:dec 包是 Google 提供的 brotli 解压算法的底层实现。

实现 initialize 方法

public class ChromeDemo implements  FunctionInitializer {    public void initialize(Context context) throws IOException {        Instant start = Instant.now();        try (TarArchiveInputStream in =                     new TarArchiveInputStream(                             new BrotliCompressorInputStream(                                     new BufferedInputStream(                                             new FileInputStream("chromedriver.tar.br"))))) {            TarArchiveEntry entry;            while ((entry = in.getNextTarEntry()) != null) {                if (entry.isDirectory()) {                    continue;                }                File file = new File("/tmp/bin", entry.getName());                File parent = file.getParentFile();                if (!parent.exists()) {                    parent.mkdirs();                }                System.out.println("extract file to " + file.getAbsolutePath());                try (FileOutputStream out = new FileOutputStream(file)) {                    IOUtils.copy(in, out);                }                Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),                        getPosixFilePermission(entry.getMode()));            }        }        Instant finish = Instant.now();        long timeElapsed = Duration.between(start, finish).toMillis();        System.out.println("Extract binary elapsed: " + timeElapsed + "ms");    }}

实现 FunctionInitializer 接口的 initialize 方法。解压过程刚开始是四层嵌套流,作用分别如下:

  1. FileInputStream 读取文件

  2. BufferedInputStream 提供缓存,介绍系统调用带来的上下文切换,提示读取的速度

  3. BrotliCompressorInputStream 对字节流进行解码

  4. TarArchiveInputStream 把 tar 包里的文件逐个解出来

然后 Files.setPosixFilePermissions 的作用是还原 tar 包中文件的权限。代码太长此处略去,参阅 packed-selenium-java-example

Instant start = Instant.now();...Instant finish = Instant.now();long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代码段会打印出解压的耗时,真实执行大概在 3.7 s 左右。

最后不要忘记在 template.yml 里配置上 InitializerInitializationTimeout

以上就是如何使用brotli压缩大文件,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯