VictoriaMetrics/lib/logstorage/pipe_extract.go

package logstorage

import (
	"fmt"
	"unsafe"
)

// pipeExtract processes '| extract from <field> <pattern>' pipe.
//
// See https://docs.victoriametrics.com/victorialogs/logsql/#extract-pipe
type pipeExtract struct {
	fromField string
	steps     []patternStep

	pattern string
}

func (pe *pipeExtract) String() string {
	s := "extract"
	if !isMsgFieldName(pe.fromField) {
		s += " from " + quoteTokenIfNeeded(pe.fromField)
	}
	s += " " + quoteTokenIfNeeded(pe.pattern)
	return s
}

func (pe *pipeExtract) updateNeededFields(neededFields, unneededFields fieldsSet) {
	if neededFields.contains("*") {
		unneededFieldsOrig := unneededFields.clone()
		needFromField := false
		for _, step := range pe.steps {
			if step.field != "" {
				if !unneededFieldsOrig.contains(step.field) {
					needFromField = true
				}
				unneededFields.add(step.field)
			}
		}
		if needFromField {
			unneededFields.remove(pe.fromField)
		} else {
			unneededFields.add(pe.fromField)
		}
	} else {
		needFromField := false
		for _, step := range pe.steps {
			if step.field != "" && neededFields.contains(step.field) {
				needFromField = true
				neededFields.remove(step.field)
			}
		}
		if needFromField {
			neededFields.add(pe.fromField)
		}
	}
}

func (pe *pipeExtract) newPipeProcessor(workersCount int, _ <-chan struct{}, _ func(), ppBase pipeProcessor) pipeProcessor {
	shards := make([]pipeExtractProcessorShard, workersCount)
	for i := range shards {
		ef := newPattern(pe.steps)
		rcs := make([]resultColumn, len(ef.fields))
		for j := range rcs {
			rcs[j].name = ef.fields[j].name
		}
		shards[i] = pipeExtractProcessorShard{
			pipeExtractProcessorShardNopad: pipeExtractProcessorShardNopad{
				ef:  ef,
				rcs: rcs,
			},
		}
	}

	pep := &pipeExtractProcessor{
		pe:     pe,
		ppBase: ppBase,

		shards: shards,
	}
	return pep
}

type pipeExtractProcessor struct {
	pe     *pipeExtract
	ppBase pipeProcessor

	shards []pipeExtractProcessorShard
}

type pipeExtractProcessorShard struct {
	pipeExtractProcessorShardNopad

	// The padding prevents false sharing on widespread platforms with 128 mod (cache line size) = 0 .
	_ [128 - unsafe.Sizeof(pipeExtractProcessorShardNopad{})%128]byte
}

type pipeExtractProcessorShardNopad struct {
	ef *pattern

	rcs []resultColumn
}

func (pep *pipeExtractProcessor) writeBlock(workerID uint, br *blockResult) {
	if len(br.timestamps) == 0 {
		return
	}

	shard := &pep.shards[workerID]
	ef := shard.ef
	rcs := shard.rcs

	c := br.getColumnByName(pep.pe.fromField)
	if c.isConst {
		v := c.valuesEncoded[0]
		ef.apply(v)
		for i, f := range ef.fields {
			fieldValue := *f.value
			rc := &rcs[i]
			for range br.timestamps {
				rc.addValue(fieldValue)
			}
		}
	} else {
		values := c.getValues(br)
		for i, v := range values {
			if i == 0 || values[i-1] != v {
				ef.apply(v)
			}
			for j, f := range ef.fields {
				rcs[j].addValue(*f.value)
			}
		}
	}

	br.addResultColumns(rcs)
	pep.ppBase.writeBlock(workerID, br)

	for i := range rcs {
		rcs[i].resetValues()
	}
}

func (pep *pipeExtractProcessor) flush() error {
	return nil
}

func parsePipeExtract(lex *lexer) (*pipeExtract, error) {
	if !lex.isKeyword("extract") {
		return nil, fmt.Errorf("unexpected token: %q; want %q", lex.token, "extract")
	}
	lex.nextToken()

	fromField := "_msg"
	if lex.isKeyword("from") {
		lex.nextToken()
		f, err := parseFieldName(lex)
		if err != nil {
			return nil, fmt.Errorf("cannot parse 'from' field name: %w", err)
		}
		fromField = f
	}

	pattern, err := getCompoundToken(lex)
	if err != nil {
		return nil, fmt.Errorf("cannot read 'pattern': %w", err)
	}
	steps, err := parsePatternSteps(pattern)
	if err != nil {
		return nil, fmt.Errorf("cannot parse 'pattern' %q: %w", pattern, err)
	}

	pe := &pipeExtract{
		fromField: fromField,
		steps:     steps,
		pattern:   pattern,
	}
	return pe, nil
}
wip 2024-05-19 02:24:32 +00:00			`package logstorage`

			`import (`
			`"fmt"`
wip 2024-05-19 10:56:08 +00:00			`"unsafe"`
wip 2024-05-19 02:24:32 +00:00			`)`

wip 2024-05-19 13:11:17 +00:00			`// pipeExtract processes '\| extract from <field> <pattern>' pipe.`
wip 2024-05-19 10:56:08 +00:00			`//`
			`// See https://docs.victoriametrics.com/victorialogs/logsql/#extract-pipe`
			`type pipeExtract struct {`
wip 2024-05-19 11:47:30 +00:00			`fromField string`
wip 2024-05-20 10:43:46 +00:00			`steps []patternStep`
wip 2024-05-19 10:56:08 +00:00
wip 2024-05-19 13:11:17 +00:00			`pattern string`
wip 2024-05-19 10:56:08 +00:00			`}`

			`func (pe *pipeExtract) String() string {`
wip 2024-05-19 11:47:30 +00:00			`s := "extract"`
			`if !isMsgFieldName(pe.fromField) {`
			`s += " from " + quoteTokenIfNeeded(pe.fromField)`
			`}`
wip 2024-05-19 13:11:17 +00:00			`s += " " + quoteTokenIfNeeded(pe.pattern)`
wip 2024-05-19 11:47:30 +00:00			`return s`
wip 2024-05-19 10:56:08 +00:00			`}`

			`func (pe *pipeExtract) updateNeededFields(neededFields, unneededFields fieldsSet) {`
wip 2024-05-19 13:11:17 +00:00			`if neededFields.contains("*") {`
wip 2024-05-19 19:25:52 +00:00			`unneededFieldsOrig := unneededFields.clone()`
wip 2024-05-19 13:11:17 +00:00			`needFromField := false`
			`for _, step := range pe.steps {`
			`if step.field != "" {`
wip 2024-05-19 19:25:52 +00:00			`if !unneededFieldsOrig.contains(step.field) {`
wip 2024-05-19 13:11:17 +00:00			`needFromField = true`
			`}`
wip 2024-05-19 19:25:52 +00:00			`unneededFields.add(step.field)`
wip 2024-05-19 13:11:17 +00:00			`}`
			`}`
			`if needFromField {`
			`unneededFields.remove(pe.fromField)`
			`} else {`
			`unneededFields.add(pe.fromField)`
			`}`
			`} else {`
			`needFromField := false`
			`for _, step := range pe.steps {`
wip 2024-05-19 19:25:52 +00:00			`if step.field != "" && neededFields.contains(step.field) {`
			`needFromField = true`
			`neededFields.remove(step.field)`
wip 2024-05-19 13:11:17 +00:00			`}`
			`}`
			`if needFromField {`
			`neededFields.add(pe.fromField)`
wip 2024-05-19 10:56:08 +00:00			`}`
			`}`
			`}`

wip 2024-05-19 19:27:53 +00:00			`func (pe *pipeExtract) newPipeProcessor(workersCount int, _ <-chan struct{}, _ func(), ppBase pipeProcessor) pipeProcessor {`
wip 2024-05-19 10:56:08 +00:00			`shards := make([]pipeExtractProcessorShard, workersCount)`
			`for i := range shards {`
wip 2024-05-20 10:43:46 +00:00			`ef := newPattern(pe.steps)`
wip 2024-05-19 11:23:27 +00:00			`rcs := make([]resultColumn, len(ef.fields))`
			`for j := range rcs {`
			`rcs[j].name = ef.fields[j].name`
			`}`
wip 2024-05-19 10:56:08 +00:00			`shards[i] = pipeExtractProcessorShard{`
			`pipeExtractProcessorShardNopad: pipeExtractProcessorShardNopad{`
wip 2024-05-19 11:23:27 +00:00			`ef: ef,`
			`rcs: rcs,`
wip 2024-05-19 10:56:08 +00:00			`},`
			`}`
			`}`

			`pep := &pipeExtractProcessor{`
			`pe: pe,`
			`ppBase: ppBase,`

			`shards: shards,`
			`}`
			`return pep`
			`}`

			`type pipeExtractProcessor struct {`
			`pe *pipeExtract`
			`ppBase pipeProcessor`

			`shards []pipeExtractProcessorShard`
			`}`

			`type pipeExtractProcessorShard struct {`
			`pipeExtractProcessorShardNopad`

			`// The padding prevents false sharing on widespread platforms with 128 mod (cache line size) = 0 .`
			`_ [128 - unsafe.Sizeof(pipeExtractProcessorShardNopad{})%128]byte`
			`}`

			`type pipeExtractProcessorShardNopad struct {`
wip 2024-05-20 10:43:46 +00:00			`ef *pattern`
wip 2024-05-19 11:23:27 +00:00
			`rcs []resultColumn`
wip 2024-05-19 10:56:08 +00:00			`}`

			`func (pep pipeExtractProcessor) writeBlock(workerID uint, br blockResult) {`
			`if len(br.timestamps) == 0 {`
			`return`
			`}`

			`shard := &pep.shards[workerID]`
			`ef := shard.ef`
wip 2024-05-19 11:23:27 +00:00			`rcs := shard.rcs`
wip 2024-05-19 12:22:09 +00:00
			`c := br.getColumnByName(pep.pe.fromField)`
			`if c.isConst {`
			`v := c.valuesEncoded[0]`
wip 2024-05-19 10:56:08 +00:00			`ef.apply(v)`
wip 2024-05-19 11:23:27 +00:00			`for i, f := range ef.fields {`
wip 2024-05-19 12:22:09 +00:00			`fieldValue := *f.value`
			`rc := &rcs[i]`
			`for range br.timestamps {`
			`rc.addValue(fieldValue)`
			`}`
			`}`
			`} else {`
			`values := c.getValues(br)`
			`for i, v := range values {`
			`if i == 0 \|\| values[i-1] != v {`
			`ef.apply(v)`
			`}`
			`for j, f := range ef.fields {`
			`rcs[j].addValue(*f.value)`
			`}`
wip 2024-05-19 11:23:27 +00:00			`}`
			`}`
wip 2024-05-19 12:22:09 +00:00
wip 2024-05-19 11:23:27 +00:00			`br.addResultColumns(rcs)`
			`pep.ppBase.writeBlock(workerID, br)`

			`for i := range rcs {`
wip 2024-05-19 19:25:52 +00:00			`rcs[i].resetValues()`
wip 2024-05-19 10:56:08 +00:00			`}`
			`}`

			`func (pep *pipeExtractProcessor) flush() error {`
			`return nil`
			`}`

wip 2024-05-19 11:47:30 +00:00			`func parsePipeExtract(lex lexer) (pipeExtract, error) {`
			`if !lex.isKeyword("extract") {`
			`return nil, fmt.Errorf("unexpected token: %q; want %q", lex.token, "extract")`
			`}`
			`lex.nextToken()`

			`fromField := "_msg"`
			`if lex.isKeyword("from") {`
			`lex.nextToken()`
			`f, err := parseFieldName(lex)`
			`if err != nil {`
			`return nil, fmt.Errorf("cannot parse 'from' field name: %w", err)`
			`}`
			`fromField = f`
			`}`

wip 2024-05-19 13:11:17 +00:00			`pattern, err := getCompoundToken(lex)`
wip 2024-05-19 11:47:30 +00:00			`if err != nil {`
wip 2024-05-19 13:11:17 +00:00			`return nil, fmt.Errorf("cannot read 'pattern': %w", err)`
wip 2024-05-19 11:47:30 +00:00			`}`
wip 2024-05-20 10:43:46 +00:00			`steps, err := parsePatternSteps(pattern)`
wip 2024-05-19 11:47:30 +00:00			`if err != nil {`
wip 2024-05-19 13:11:17 +00:00			`return nil, fmt.Errorf("cannot parse 'pattern' %q: %w", pattern, err)`
wip 2024-05-19 11:47:30 +00:00			`}`

			`pe := &pipeExtract{`
			`fromField: fromField,`
			`steps: steps,`
wip 2024-05-19 13:11:17 +00:00			`pattern: pattern,`
wip 2024-05-19 11:47:30 +00:00			`}`
			`return pe, nil`
			`}`