Go语言中文手册 · 数据清洗

admin 2024-08-15 16:34:20 编程 来源:ZONE.CI 全球网 0 阅读模式

1. 数据清洗

读取清洗的效率还是挺快的

package main

import (
    "bufio"
    "fmt"
    "io"
    "os"
    "strings"

    "github.com/axgle/mahonia"
)

func main() {
    // 1.打开文件
    file, _ := os.Open("./kaifang.txt")
    defer file.Close()
    // 创建优质文件
    goodFile, _ := os.OpenFile("./kaifang_good.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
    defer goodFile.Close()
    // 创建劣质文件
    badFile, _ := os.OpenFile("./kaifang_bad.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
    defer badFile.Close()
    // 2.缓冲读取
    reader := bufio.NewReader(file)
    for {
        lineBytes, _, err := reader.ReadLine()
        if err == io.EOF {
            break
        }
        gbkStr := string(lineBytes)
        lineStr := ConvertEncoding(gbkStr, "GBK")
        // 3.根据行数据,取身份证
        fields := strings.Split(lineStr, ",")
        // 判断长度大于等于2,下标1的位置长度=18
        if len(fields) >= 2 && len(fields[1]) == 18 {
            goodFile.WriteString(lineStr + "\n")
            fmt.Println("Good:", lineStr)
        } else {
            badFile.WriteString(lineStr + "\n")
            fmt.Println("Bad:", lineStr)
        }
    }
}

func ConvertEncoding(srcStr string, encoding string) (dstStr string) {
    // 创建编码处理器
    enc := mahonia.NewDecoder(encoding)
    // 编码器处理字符串为utf8的字符串
    utfStr := enc.ConvertString(srcStr)
    dstStr = utfStr
    return
}
TypeScript学习笔记 编程

TypeScript学习笔记

TypeScript学习笔记[TOC]TypeScript概述TypeScript是微软开发的一个开源的编程语言,通过在JavaScript的基础上添加静态类型
高德地图JSAPI学习笔记 编程

高德地图JSAPI学习笔记

[toc]概述地图 JS API 2.0 是高德开放平台免费提供的第四代 Web 地图渲染引擎, 以 WebGL 为主要绘图手段,本着“更轻、更快、更易用”的服
golangTCPpush 编程

golangTCPpush

在当今互联网时代,即时通讯成为了人们生活中不可或缺的一部分。而实现即时通讯的关键技术之一就是TCP Push。作为一名专业的golang开发者,我们不仅需要掌握
nodegolang性能对比 编程

nodegolang性能对比

在当前的编程世界中,Node.js和Golang是两种备受瞩目的技术。它们都拥有出色的性能和能力,但在某些方面却存在差异。本文将对Node.js和Golang进
评论:0   参与:  23