Python正则表达式提取省市名称

问题导入:考虑以下城市

浙江省舟山市
云南省西双版纳州
新疆维吾尔族自治区伊犁州
内蒙古自治区阿拉善盟

如何提取出省、市名称呢?

提取省市全称

import re

pattern = r'^(.*?(?:省|自治区|维吾尔族自治区|壮族自治区|回族自治区))(.*?(?:市|州|盟))'
file_names = ["浙江省舟山市", "云南省西双版纳州", "新疆维吾尔族自治区伊犁州", "内蒙古自治区阿拉善盟","哈哈哈"]

for file_name in file_names:
    matches = re.findall(pattern, file_name)
    if matches:
        province, city = matches[0]
        print(province,city)
    else:
        print("未匹配到省份和市")

结果为:

浙江省 舟山市
云南省 西双版纳州
新疆维吾尔族自治区 伊犁州
内蒙古自治区 阿拉善盟
未匹配到省份和市

提取省市简称

import re

pattern = r'^(.*?)(?:省|自治区|维吾尔族自治区|壮族自治区|回族自治区)(.*?)(?:市|州|盟)'
file_names = ["浙江省舟山市", "云南省西双版纳州", "新疆维吾尔族自治区伊犁州", "内蒙古自治区阿拉善盟","哈哈哈"]

for file_name in file_names:
    matches = re.findall(pattern, file_name)
    if matches:
        province, city = matches[0]
        print(province,city)
    else:
        print("未匹配到省份和市")

结果为:

浙江 舟山
云南 西双版纳
新疆 伊犁
内蒙古 阿拉善
未匹配到省份和市

提取省简称,市全称

import re

pattern = r'^(.*?)(?:省|自治区|维吾尔族自治区|壮族自治区|回族自治区)(.*?(?:市|州|盟))'
file_names = ["浙江省舟山市", "云南省西双版纳州", "新疆维吾尔族自治区伊犁州", "内蒙古自治区阿拉善盟","哈哈哈"]

for file_name in file_names:
    matches = re.findall(pattern, file_name)
    if matches:
        province, city = matches[0]
        print(province,city)
    else:
        print("未匹配到省份和市")

结果为:

浙江 舟山市
云南 西双版纳州
新疆 伊犁州
内蒙古 阿拉善盟
未匹配到省份和市