Golang 中的 Bufio 包详解之 Bufio.Scanner
bufio.Scanner
bufio.Scanner 是 Golang 中一个用于逐个读取输入缓冲区的扫描器,通常与 bufio.Reader 一起使用,bufio.Reader 用于从输入中读取数据,而 bufio.Scanner 则用于逐个读取输入缓冲区的内容。
bufio.Scanner 可以将输入数据分解为逻辑上的行并返回。Scanner 通过定义一个 Split 函数来将输入分解为行。结构体定义和对应的方法如下:
type Scanner struct { r io.Reader // The reader provided by the client. split SplitFunc // The function to split the tokens. maxTokenSize int // Maximum size of a token; modified by tests. token []byte // Last token returned by split. buf []byte // Buffer used as argument to split. start int // First non-processed byte in buf. end int // End of data in buf. err error // Sticky error. empties int // Count of successive empty tokens. scanCalled bool // Scan has been called; buffer is in use. done bool // Scan has finished. }
下面是 bufio.Writer 提供的一些主要方法:
- func (s *Scanner) Scan() bool,用于读取输入缓冲区中的下一个数据块,并将其保存在内部的缓冲区中。如果读取成功,则返回 true;如果已经读取了所有数据或者发生了错误,则返回 false。
- func (s *Scanner) Text() string,用于获取内部缓冲区中的文本内容,通常与 Scan() 方法一起使用,用于获取读取的数据。
- func (s *Scanner) Bytes() []byte,用于获取内部缓冲区中的字节内容,通常与 Scan() 方法一起使用,用于获取读取的数据。
- func (s *Scanner) Err() error,用于获取在读取输入时发生的错误信息,如果读取过程中没有发生错误,则返回 nil;否则,返回一个非 nil 的错误对象。
- func (s *Scanner) Buffer(buf []byte, max int), 用于自定义输入缓冲区大小,接受一个 []byte 类型的参数,用于指定缓冲区的大小。
- func (s *Scanner) Split(split SplitFunc),用于指定一个分割函数,将输入分割成多个数据块,接受一个 func([]byte) bool 类型的参数,该函数在每次读取输入时被调用,用于判断是否需要将当前数据块分割成多个小块。通常用于处理非常大的数据块,以避免内存溢出等问题。
使用示例
简单使用示例如下:
package main import ( "bufio" "fmt" "strings" ) func main() { input := "路多辛的所思所想n很值得一看哦!n" scanner := bufio.NewScanner(strings.NewReader(input)) // 逐行遍历 for scanner.Scan() { fmt.Println(scanner.Text()) } // 错误处理 if err := scanner.Err(); err != nil { fmt.Println("Error:", err) } // 自定义分隔符 scanner = bufio.NewScanner(strings.NewReader("路多辛,的,所思所想")) scanner.Split(func(data []byte, atEOF bool) (advance int, token []byte, err error) { // 分隔符为逗号 for i, d := range data { if d == ',' { return i + 1, data[:i], nil } } if atEOF && len(data) > 0 { return len(data), data, nil } return 0, nil, nil }) for scanner.Scan() { fmt.Println(scanner.Text()) } }
运行看下效果:
$ go run main.go 路多辛的所思所想 很值得一看哦 路多辛 的 所思所想
第一个示例中,使用了默认的分割方式,即按行读取输入。第二个示例中,使用自定义分隔符,将输入的字符串按照逗号进行分隔。
小结
bufio.Scanner 在读取缓冲区时,会将读取的数据保存在内部缓冲区中。因此,在每次调用 scanner.Scan() 方法时,都会从输入中读取一个新的数据块,并保存在内部缓冲区中。如果需要读取输入缓冲区中的所有数据,需要不断调用 scanner.Scan() 方法,直到返回 false 为止。