正则表达式-分割-《Python教程》

admin 2025-10-19 17:57:55 编程 来源:ZONE.CI 全球网 0 阅读模式

    使用 Python 对文本内容进行信息的提取,我第一个想到的方法便是使用正则表达式,借助于re模块强大的findall函数可以很轻松地拿到想要的结构化文本信息。

    但在某些场景下,findall函数也无法帮助我们完美地提取到想要的信息,例如下面这段包含多个 SQL 的文本内容,我们很难编写一个匹配模式来获取到--[sql*]块内的内容。

    1. --[sql1]
    2. -- test1
    3. SELECT * FROM test.t1
    4. ;
    5. --test2
    6. CREATE TABLE IF NOT EXSISTS test.t1
    7. STORED AS PARQUET
    8. SELECT * FROM test.studuents
    9. ;
    10. --[sql2]
    11. --test3
    12. SELECT * FROM test.t2

    对于上面这段文本内容,我们期望提取的结果如下:

    1. {
    2. "sql1": "SELECT * FROM test.t1\n;\nCREATE TABLE IF NOT EXSISTS test.t1\n STORED AS PARQUET\nSELECT * FROM test.studuents\n;\n\n",
    3. "sql2": "SELECT * FROM test.t2\n"
    4. }

    怎么样,还是有点难度的吧?编写匹配模式的难点有 2 个,一是我们虽然知道想要提取的内容是在--[sql1]--[sql2]标识下面,但是--[sql*]是变化的,二是无法找到匹配模式结束的标识。幸运的是,**re**模块还提供了一个**split**函数,可以帮助我们完成信息的提取。当然,有兴趣的同学可以想一下,是否可以编写复杂一点的匹配模式,借助于findall函数也能完成信息的提取。

    本质上,re.split函数与内置split函数使用方法差不多,唯一区别在于split只能接收固定分隔符进行切割,而re.split可以接受一个匹配模式的分隔符来进行切割。

    下面我们使用re.split函数提取想要的信息:

    1. import re
    2. with open("code.sql", "r") as f:
    3. content = f.read()
    4. titles = re.findall("--\[(.*?)\]\n", content)
    5. sqls = [re.sub('\n{2,}', '\n', re.sub('--.*?\n', '', s)) for s in re.split("--\[.*?\]\n", content) if s != ""]
    6. info = dict(zip(titles, sqls))
    以太坊cppgolang区别 编程

    以太坊cppgolang区别

    以太坊是一种去中心化的开源平台,它采用智能合约技术,旨在构建和运行不受干扰的分布式应用程序。作为目前最受欢迎的区块链平台之一,以太坊提供了多种编程语言的支持,其
    progolang 编程

    progolang

    Go语言(Golang)是由Google开发的一门静态类型编程语言。作为一名专业的Golang开发者,我深知这门语言的优势和特点。在本文中,我将介绍Golang
    golangn个发送者 编程

    golangn个发送者

    Golang是一种开源的编程语言,由Google团队开发,旨在提高程序的并发性和简化软件开发过程。在Go语言中,有时需要向多个接收者发送信息。本文将介绍如何在G
    golang技能图谱 编程

    golang技能图谱

    从互联网行业的快速发展到人工智能技术的日益成熟,各种编程语言也应运而生。而在这众多的编程语言中,Golang(即Go)作为一门强大且高效的开发语言备受关注。Go
    评论:0   参与:  13