如何发现截断的数据项

linux中国 2024-07-18 三掌柜手机阅读

如何发现截断的数据项-每日运维

截断（形容词）：缩写、删节、缩减、剪切、剪裁、裁剪、修剪……

数据项被截断的一种情况是将其输入到数据库字段中，该字段的字符限制比数据项的长度要短。例如，字符串：

Yarrow Ravine Rattlesnake Habitat Area, 2 mi ENE of Yermo CA

是 60 个字符长。如果你将其输入到具有 50 个字符限制的“位置”字段，则可以获得：

Yarrow Ravine Rattlesnake Habitat Area, 2 mi ENE #末尾带有一个空格

截断也可能导致数据错误，比如你打算输入：

Sally Ann Hunter (aka Sally Cleveland)

但是你忘记了闭合的括号：

Sally Ann Hunter (aka Sally Cleveland

这会让使用数据的用户觉得 Sally 是否有被修剪掉了数据项的其它的别名。

截断的数据项很难检测。在审核数据时，我使用三种不同的方法来查找可能的截断，但我仍然可能会错过一些。

**数据项的长度分布。**第一种方法是捕获我在各个字段中找到的大多数截断的数据。我将字段传递给 awk 命令，该命令按字段宽度计算数据项，然后我使用 sort 以宽度的逆序打印计数。例如，要检查以 tab 分隔的文件 midges 中的第 33 个字段：

 awk -F"\t" 'NR>1 {a[length($33)]++} \
    END {for (i in a) print i FS a[i]}' midges | sort -nr

如何发现截断的数据项-每日运维

最长的条目恰好有 50 个字符，这是可疑的，并且在该宽度处存在数据项的“凸起”，这更加可疑。检查这些 50 个字符的项目会发现截断：

如何发现截断的数据项-每日运维

我用这种方式检查的其他数据表有 100、200 和 255 个字符的“凸起”。在每种情况下，这种“凸起”都包含明显的截断。

**未匹配的括号。**第二种方法查找类似 ...(Sally Cleveland 的数据项。一个很好的起点是数据表中所有标点符号的统计。这里我检查文件 mag2：

grep -o "[[:punct:]]" file | sort | uniqc

如何发现截断的数据项-每日运维

请注意，mag2 中的开括号和闭括号的数量不相等。要查看发生了什么，我使用 unmatched 函数，它接受三个参数并检查数据表中的所有字段。第一个参数是文件名，第二个和第三个是开括号和闭括号，用引号括起来。

 unmatched()
{
    awk -F"\t" -v start="$2" -v end="$3" \
        '{for (i=1;i

使用 dnf 进行 Linux 包管理

linux中国 2024-07-16 三掌柜

linux中国 2024-07-18 三掌柜

linux中国 2024-07-17 三掌柜

PPython：PHP 拥抱 Python 的利器

linux中国 2024-07-18 三掌柜

linux中国 2024-07-17 三掌柜

	awk -F"\t" 'NR>1 {a[length($33)]++} \
	END {for (i in a) print i FS a[i]}' midges \| sort -nr