文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Go项目实战:一步步构建一个并发文件下载器

2024-12-03 02:58

关注

大家好,我是 polarisxu。

今天为大家带来一个实战项目。建议你一定要动手实践。

在往下看之前,你不妨思考下,用 Go 如何实现一个并发下载器。

01 原理

对于服务器上的某个文件,我们要并发下载到本地,很容易想到,应该将文件分成多个部分,然后开多个 goroutine 并发地去下载,最后将这多个部分合并成一个文件,实现并发下载的目的。

现在的问题是,服务器上的一个文件,我们怎么做到分成多个呢?

这需要 HTTP 协议相关知识了。

HTTP 协议有一个响应头:Accept-Ranges,服务器通过该头来标识自身支持部分请求(partial requests),也叫范围请求。如果服务端支持部分请求,我们就可以实现并发下载。该头有两个可能的值:

  1. Accept-Ranges: bytes 
  2. Accept-Ranges: none 

所以,我们在并发下载之前,应该先发起一个 Head 请求,来确认服务端是否支持部分请求。比如:

  1. resp, err := http.Head("https://studygolang.com/dl/golang/go1.16.5.src.tar.gz"
  2. if err != nil { 
  3.   return err 
  4.  
  5. if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" { 
  6.   // 支持部分请求 

确认了服务器支持部分请求,接下来就是如何进行部分请求。

这就用到 HTTP 的一个请求头部:Range。(详情参考: https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers/Range )

Range 告知服务器返回文件的哪一部分。在一个 Range 头部中,可以一次性请求多个部分,服务器会以 multipart 文件的形式将其返回。如果服务器返回的是范围响应,需要使用 206 Partial Content 状态码。假如所请求的范围不合法,那么服务器会返回 416 Range Not Satisfiable 状态码,表示客户端错误。服务器允许忽略 Range 首部,从而返回整个文件,状态码用 200。

具体语法:

  1. Range: =
  2. Range: =- 
  3. Range: =-- 
  4. Range: =--- 

例如:

  1. Range: bytes=200-10002000-657619000

掌握了以上知识点,最后要做的就是将下载下来的各个部分合并成一个文件。需要注意各个部分的顺序,比如根据顺序,按 1、2、3 等编号。

02 动手实现一个

知道了原理不代表你真的就会了,我们应该实际动手实现一个,加深理解。

在本地某个目录下创建目录:downloader。

  1. $ mkdir downloader 
  2. $ cd downloader 
  3. $ go mod init github.com/polaris1119/downloader 

命令行参数控制

为了让工具更好用,我们应该支持命令行参数,而不是代码写死一个,比如要下载的 URL、并发数、输出的文件名等。关于命令行参数控制,除了使用标准库 flag,我比较喜欢 github.com/urfave/cli,最新版本 v2。

创建一个文件 main.go,内容如下:

  1. package main 
  2.  
  3. import ( 
  4.     "log" 
  5.     "os" 
  6.     "runtime" 
  7.  
  8.     "github.com/urfave/cli/v2" 
  9.  
  10. func main() { 
  11.   // 默认并发数 
  12.     concurrencyN := runtime.NumCPU() 
  13.  
  14.     app := &cli.App{ 
  15.         Name:  "downloader"
  16.         Usage: "File concurrency downloader"
  17.         Flags: []cli.Flag{ 
  18.             &cli.StringFlag{ 
  19.                 Name:     "url"
  20.                 Aliases:  []string{"u"}, 
  21.                 Usage:    "`URL` to download"
  22.                 Required: true
  23.             }, 
  24.             &cli.StringFlag{ 
  25.                 Name:    "output"
  26.                 Aliases: []string{"o"}, 
  27.                 Usage:   "Output `filename`"
  28.             }, 
  29.             &cli.IntFlag{ 
  30.                 Name:    "concurrency"
  31.                 Aliases: []string{"n"}, 
  32.                 Value:   concurrencyN, 
  33.                 Usage:   "Concurrency `number`"
  34.             }, 
  35.         }, 
  36.         Action: func(c *cli.Context) error { 
  37.       return nil 
  38.         }, 
  39.     } 
  40.  
  41.     err := app.Run(os.Args) 
  42.     if err != nil { 
  43.         log.Fatal(err) 
  44.     } 

执行 go mod tidy,下载必要的包。然后执行:

  1. $ go run main.go -h 
  2. NAME: 
  3.    downloader - File concurrency downloader 
  4.  
  5. USAGE: 
  6.    downloader [global options] command [command options] [arguments...] 
  7.  
  8. COMMANDS: 
  9.    help, h  Shows a list of commands or help for one command 
  10.  
  11. GLOBAL OPTIONS: 
  12.    --url URL, -u URL                URL to download 
  13.    --output filename, -o filename   Output filename 
  14.    --concurrency number, -n number  Concurrency number (default8
  15.    --help, -h                       show help (defaultfalse

关于 cli 这个库的使用,可以参阅官方文档,写的很详细,也有很多例子。

检查是否支持并发下载

创建另外一个文件 downloader.go,定义一个结构体 Dowloader:

  1. package main 
  2.  
  3. type Downloader struct { 
  4.     concurrency int 
  5.  
  6. func NewDownloader(concurrency int) *Downloader { 
  7.     return &Downloader{concurrency: concurrency} 

为该结构体增加 Download 方法:

  1. func (d *Downloader) Download(strURL, filename string) error { 
  2.     if filename == "" { 
  3.         filename = path.Base(strURL) 
  4.     } 
  5.  
  6.     resp, err := http.Head(strURL) 
  7.     if err != nil { 
  8.         return err 
  9.     } 
  10.  
  11.     if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" { 
  12.         return d.multiDownload(strURL, filename, int(resp.ContentLength)) 
  13.     } 
  14.  
  15.     return d.singleDownload(strURL, filename) 
  16.  
  17. func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error { 
  18.     return nil 
  19.  
  20. func (d *Downloader) singleDownload(strURL, filename string) error { 
  21.   return nil 

当支持部分请求时,文件总大小通过 Head 请求的响应中的 ContentLength 可以获得。有了文件总大小和并发数,就可以知道每个部分的大小了。

并发下载

这部分第一个要点是如何发起部分请求:

  1. req, err := http.NewRequest("GET""https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz", nil) 
  2. if err != nil { 
  3.     return err 
  4. rangeStart := 2000 
  5. rangeStop := 3000 
  6. req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeStop)) 
  7.  
  8. res, err := http.DefaultClient.Do(req) 

我们可以将其封装成一个方法:

  1. func (d *Downloader) downloadPartial(strURL, filename string, rangeStart, rangeEnd, i int) { 
  2.     if rangeStart >= rangeEnd { 
  3.         return 
  4.     } 
  5.  
  6.     req, err := http.NewRequest("GET", strURL, nil) 
  7.     if err != nil { 
  8.         log.Fatal(err) 
  9.     } 
  10.  
  11.     req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeEnd)) 
  12.     resp, err := http.DefaultClient.Do(req) 
  13.     if err != nil { 
  14.         log.Fatal(err) 
  15.     } 
  16.     defer resp.Body.Close() 
  17.  
  18.     flags := os.O_CREATE | os.O_WRONLY 
  19.     partFile, err := os.OpenFile(d.getPartFilename(filename, i), flags, 0666
  20.     if err != nil { 
  21.         log.Fatal(err) 
  22.     } 
  23.     defer partFile.Close() 
  24.  
  25.     buf := make([]byte32*1024
  26.     _, err = io.CopyBuffer(partFile, resp.Body, buf) 
  27.     if err != nil { 
  28.         if err == io.EOF { 
  29.             return 
  30.         } 
  31.         log.Fatal(err) 
  32.     } 
  33.  
  34. // getPartDir 部分文件存放的目录 
  35. func (d *Downloader) getPartDir(filename string) string { 
  36.     return strings.SplitN(filename, "."2)[0
  37.  
  38. // getPartFilename 构造部分文件的名字 
  39. func (d *Downloader) getPartFilename(filename string, partNum int) string { 
  40.     partDir := d.getPartDir(filename) 
  41.     return fmt.Sprintf("%s/%s-%d", partDir, filename, partNum) 

然后就是 multiDownload 方法中怎么分部分,这和并发请求多个 URL 很类似,使用 sync.WaitGroup 进行控制:

  1. func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error { 
  2.     partSize := contentLen / d.concurrency 
  3.  
  4.   // 创建部分文件的存放目录 
  5.     partDir := d.getPartDir(filename) 
  6.     os.Mkdir(partDir, 0777
  7.     defer os.RemoveAll(partDir) 
  8.  
  9.     var wg sync.WaitGroup 
  10.     wg.Add(d.concurrency) 
  11.  
  12.     rangeStart := 0 
  13.  
  14.     for i := 0; i < d.concurrency; i++ { 
  15.     // 并发请求 
  16.         go func(i, rangeStart int) { 
  17.             defer wg.Done() 
  18.  
  19.             rangeEnd := rangeStart + partSize 
  20.       // 最后一部分,总长度不能超过 ContentLength 
  21.             if i == d.concurrency-1 { 
  22.                 rangeEnd = contentLen 
  23.             } 
  24.  
  25.             d.downloadPartial(strURL, filename, rangeStart, rangeEnd, i) 
  26.  
  27.         }(i, rangeStart) 
  28.  
  29.         rangeStart += partSize + 1 
  30.     } 
  31.  
  32.     wg.Wait() 
  33.    
  34.   // 合并文件 
  35.     d.merge(filename) 
  36.  
  37.     return nil 
  38.  
  39. func (d *Downloader) merge(filename string) error { 
  40.     return nil 

因为把每部分单独保存为文件了,所以合并只需要按照顺序处理这些文件即可:

  1. func (d *Downloader) merge(filename string) error { 
  2.     destFile, err := os.OpenFile(filename, os.O_CREATE|os.O_WRONLY, 0666
  3.     if err != nil { 
  4.         return err 
  5.     } 
  6.     defer destFile.Close() 
  7.  
  8.     for i := 0; i < d.concurrency; i++ { 
  9.         partFileName := d.getPartFilename(filename, i) 
  10.         partFile, err := os.Open(partFileName) 
  11.         if err != nil { 
  12.             return err 
  13.         } 
  14.         io.Copy(destFile, partFile) 
  15.         partFile.Close() 
  16.         os.Remove(partFileName) 
  17.     } 
  18.  
  19.     return nil 

连接程序

到这里,程序的核心部分已经完成。接下来该在 main.go 中的 Action 作如下处理:

  1. Action: func(c *cli.Context) error { 
  2.   strURL := c.String("url"
  3.   filename := c.String("output"
  4.   concurrency := c.Int("concurrency"
  5.   return NewDownloader(concurrency).Download(strURL, filename) 
  6. }, 

到这里可以运行测试下:

  1. go run . --url https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz 

不出意外的话文件会下载成功。

03 总结

实现了基本功能,读者朋友们可以进一步做优化、完善。比如:

类似下面这样:

这个实现的完整代码我放在了 GitHub: https://github.com/polaris1119/downloader 。

还有两点大家可以注意下:

最后,再提醒一次,记得自己动手实现一个哦。

 

来源:polarisxu.studygolang.com内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯