一种读取亿级doris数据库的方法 | 京东云技术团队

数据运维 2023-07-19 醒在深海的猫手机阅读

工作中，常常需要将线上doris同步至集市。读取doris数据同读取常规mysql基本相同。如果数据行小于千万，比较简单的方式直接单节点连接、读取和存储。Python示例如下：

 def get_data(sql,host='',port=2000,user='',password='',db=''):
    # 支持doris
    import pymysql
    connect = pymysql.connect(host=host,port=port,user=user,password=password,db=db,charset='utf8')
    cursor = connect.cursor()
    cursor.execute('SET query_timeout = 216000;') #单位秒
    cursor.execute(sql)
    result = cursor.fetchall()
    for row in result:
        pass # 存储格式可以自行控制 
    cursor.close()
    connect.close()
    return result

如果数据量比较大，超过千万，甚至过亿，单节点读取会遇到超时以及时效过低的问题。可以使用spark.read.jdbc分布式多节点并发读取。spark读取支持两种方式。

主要参数介绍：

read.jdbc(url=url,table=remote_table,column='item_sku_id',numPartitions=50,lowerBound=lowerBound, upperBound=upperBound,properties=prop)

url：格式如'jdbc:mysql://**.jd.com:2000/数据库名?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&failOverReadOnly=false&zeroDateTimeBehavior=convertToNull&useSSL=false&serverTimezone=Asia/Shanghai'

table：可以是表名，也可以是查询sql(也即支持条件查询)，如果是sql，格式如"(SELECT count(*) sku FROM rule_price_result where dt='2023-05-10') AS tmp"

numPartitions：控制并发节点个数

lowerBound+upperBound和properties二选一，控制每个节点读取的数据范围。

lowerBound+upperBound方式：指定读取最低和最高值，spark会结合分区个数和最低最高边界机械做分割。

如果数据分布有倾斜，可以通过predicates列表自行控制范围。

作者：京东零售赵奇猛

来源：京东云开发者社区

mysql中获取一天、一周、一月时间数据的各种sql语句写法

数据运维 2023-04-23 醒在深海的猫

MySql 8.0.11安装配置教程

数据运维 2023-04-28 醒在深海的猫

如何在 Pandas 的 SQL 查询样式中选择数据子集？

数据运维 2023-08-31 醒在深海的猫

Windows10下mysql 8.0.12解压版安装配置方法图文教程

数据运维 2023-04-28 醒在深海的猫

逐步指导：修改Oracle数据库编码格式

数据运维 2024-03-08 醒在深海的猫

	def get_data(sql,host='',port=2000,user='',password='',db=''):
	# 支持doris
	import pymysql
	connect = pymysql.connect(host=host,port=port,user=user,password=password,db=db,charset='utf8')
	cursor = connect.cursor()
	cursor.execute('SET query_timeout = 216000;') #单位秒
	cursor.execute(sql)
	result = cursor.fetchall()
	for row in result:
	pass # 存储格式可以自行控制
	cursor.close()
	connect.close()
	return result