Golang 中的 Bufio 包详解之 Bufio.Scanner

2023年 10月 10日 33.6k 0

bufio.Scanner

bufio.Scanner 是 Golang 中一个用于逐个读取输入缓冲区的扫描器,通常与 bufio.Reader 一起使用,bufio.Reader 用于从输入中读取数据,而 bufio.Scanner 则用于逐个读取输入缓冲区的内容。

bufio.Scanner 可以将输入数据分解为逻辑上的行并返回。Scanner 通过定义一个 Split 函数来将输入分解为行。结构体定义和对应的方法如下:

type Scanner struct {
	r            io.Reader // The reader provided by the client.
	split        SplitFunc // The function to split the tokens.
	maxTokenSize int       // Maximum size of a token; modified by tests.
	token        []byte    // Last token returned by split.
	buf          []byte    // Buffer used as argument to split.
	start        int       // First non-processed byte in buf.
	end          int       // End of data in buf.
	err          error     // Sticky error.
	empties      int       // Count of successive empty tokens.
	scanCalled   bool      // Scan has been called; buffer is in use.
	done         bool      // Scan has finished.
}

下面是 bufio.Writer 提供的一些主要方法:

  • func (s *Scanner) Scan() bool,用于读取输入缓冲区中的下一个数据块,并将其保存在内部的缓冲区中。如果读取成功,则返回 true;如果已经读取了所有数据或者发生了错误,则返回 false。
  • func (s *Scanner) Text() string,用于获取内部缓冲区中的文本内容,通常与 Scan() 方法一起使用,用于获取读取的数据。
  • func (s *Scanner) Bytes() []byte,用于获取内部缓冲区中的字节内容,通常与 Scan() 方法一起使用,用于获取读取的数据。
  • func (s *Scanner) Err() error,用于获取在读取输入时发生的错误信息,如果读取过程中没有发生错误,则返回 nil;否则,返回一个非 nil 的错误对象。
  • func (s *Scanner) Buffer(buf []byte, max int), 用于自定义输入缓冲区大小,接受一个 []byte 类型的参数,用于指定缓冲区的大小。
  • func (s *Scanner) Split(split SplitFunc),用于指定一个分割函数,将输入分割成多个数据块,接受一个 func([]byte) bool 类型的参数,该函数在每次读取输入时被调用,用于判断是否需要将当前数据块分割成多个小块。通常用于处理非常大的数据块,以避免内存溢出等问题。

使用示例

简单使用示例如下:

package main

import (
	"bufio"
	"fmt"
	"strings"
)

func main() {
	input := "路多辛的所思所想n很值得一看哦!n"
	scanner := bufio.NewScanner(strings.NewReader(input))

	// 逐行遍历
	for scanner.Scan() {
		fmt.Println(scanner.Text())
	}

	// 错误处理
	if err := scanner.Err(); err != nil {
		fmt.Println("Error:", err)
	}

	// 自定义分隔符
	scanner = bufio.NewScanner(strings.NewReader("路多辛,的,所思所想"))
	scanner.Split(func(data []byte, atEOF bool) (advance int, token []byte, err error) {
		// 分隔符为逗号
		for i, d := range data {
			if d == ',' {
				return i + 1, data[:i], nil
			}
		}
		if atEOF && len(data) > 0 {
			return len(data), data, nil
		}
		return 0, nil, nil
	})
	for scanner.Scan() {
		fmt.Println(scanner.Text())
	}
}

运行看下效果:

$ go run main.go
路多辛的所思所想
很值得一看哦
路多辛
的
所思所想

第一个示例中,使用了默认的分割方式,即按行读取输入。第二个示例中,使用自定义分隔符,将输入的字符串按照逗号进行分隔。

小结

bufio.Scanner 在读取缓冲区时,会将读取的数据保存在内部缓冲区中。因此,在每次调用 scanner.Scan() 方法时,都会从输入中读取一个新的数据块,并保存在内部缓冲区中。如果需要读取输入缓冲区中的所有数据,需要不断调用 scanner.Scan() 方法,直到返回 false 为止。

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论