Ubuntu 安装 superset

1 简介

Apache Superset是一个开源软件云原生应用程序,用于数据探索和数据可视化,能够处理PB级数据。该应用程序最初是由Maxime Beauchemine在Airbnb工作时的一个黑客项目,并于2017年进入了Apache Incubator计划。

本文基于 ubuntu 20.04 64bit , python 3.8.2 , apache-superset 1.0.1, mariadb-server 来安装配置。superset 基于 Flask 开发的 ,默认使用的是 sqlite 数据库。

2 安装系统环境

安装系统基本环境

sudo apt-get install build-essential libssl-dev libffi-dev python3-dev python3-pip libsasl2-dev libldap2-dev python3-venv libmariadb-dev

由于众所周知的网络环境原因,这里需要添加对域名的解释到 /etc/hosts

echo "151.101.108.133 raw.githubusercontent.com" >> /etc/hosts

配置虚拟环境并激活

mkdir mysuperset
cd mysuperset
python3 -m venv venv
. venv/bin/activate

3 安装 superset

安装依赖环境

pip install wheel 
pip install mysqlclient
pip install Pillow

安装 superset

pip install apache-superset

初始化数据库

superset db upgrade

创建程序的管理员

export FLASK_APP=superset
superset fab create-admin

加载案例数据

superset load_examples

创建默认角色和权限

superset init

在8088端口启动一个开发模式的服务器

superset run -h 0.0.0.0 -p 8088 --with-threads --reload --debugger

4 配置 superset

4.1 设置为中文

superset 1.0.1 版本自带的中文语言包翻译质量一般,建议去 https://github.com/apache/superset/tree/master/superset/translations/zh/LC_MESSAGES 下载最新的语言包,然后用 poedit 程序打开 messages.po 文件转成 messages.mo 文件,再替换原来的 mo 和 json 文件。

在 ~/mysuperset/venv/lib/python3.8/site-packages/superset/config.py 中进行配置,修改原来的 en 为 zh 。

BABEL_DEFAULT_LOCALE = "zh"

4.2 配置缓存

默认没有启用缓存,建议启用。在 config.py 文件中找到以下两行,把 null 修改为 simple

CACHE_CONFIG: CacheConfig = {"CACHE_TYPE": "simple"}
DATA_CACHE_CONFIG: CacheConfig = {"CACHE_TYPE": "simple"}

5 退出

关掉服务器后退出虚拟环境

deactivate

ssh 端口转发

1 简介

通过 ssh 建立隧道,转发数据。

ssh 的常用参数: N ,f ,L ,C , T ,R

2 例子

服务器端口有限制,需在 ssh 隧道中,通过本地端口3307访问远程服务器3306端口。

ssh -N -f -L 127.0.0.1:3307:127.0.0.1:3306 comet@www.3gcomet.com -p12345

GPL AGPL 开源协议与 SSPL 协议的简单比较

GPL和AGPLv3的区别

  GPL:GNU通用公共许可证(GNU General Public License)

  AGPL:The GNU Affero General Public License

GPL v3协议,意味着修改和使用其代码都需要开源,但是这是建立在软件分发的基础上,如果使用代码作为服务提供,而不分发软件,则不需要开源。这实际上是GPL协议本身的缺陷。

AGPL v3协议,也就是说,除非获得商业授权,否则无论以何种方式修改或者使用代码,都需要开源。

SSPL 和 AGPL 协议有什么区别?

  SSPL:The Server Side Public License (SSPL) is a proprietary/source-available software license developed by MongoDB Inc., and introduced in 2018.[wikipedia]

  SSPL 构建于 AGPL 的精神之上,但明确了将开源软件作为服务提供的条件。   

  SSPL 保留了开源社区在 AGPL 下使用 MongoDB 所有拥有的相同权利:使用、审查、修改和重新发布软件的自由。

唯一实质性的变化,就是加了一个明确的条件,即任何试图将 MongoDB 作为服务加以利用的组织,都必须开放用于提供,但 SSPL 不属于开源协议。

python的端口转发

# -*- coding: utf-8 -*-
# tcp mapping

import sys
import socket
import logging
import threading

# 端口映射配置信息
CFG_REMOTE_IP = '127.0.0.1'
CFG_REMOTE_PORT = 23
CFG_LOCAL_IP = '0.0.0.0'
CFG_LOCAL_PORT = 1023

# 接收数据缓存大小
PKT_BUFF_SIZE = 2048

logger = logging.getLogger("Proxy Logging")
formatter = logging.Formatter('%(name)-12s %(asctime)s %(levelname)-8s %(lineno)-4d %(message)s',
                              '%Y %b %d %a %H:%M:%S', )

stream_handler = logging.StreamHandler(sys.stderr)
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)

logger.setLevel(logging.DEBUG)


# 单向流数据传递
def tcp_mapping_worker(conn_receiver, conn_sender):
    while True:
        try:
            data = conn_receiver.recv(PKT_BUFF_SIZE)
        except Exception:
            logger.debug('Connection closed.')
            break

        if not data:
            logger.info('No more data is received.')
            break

        try:
            conn_sender.sendall(data)
        except Exception:
            logger.error('Failed sending data.')
            break

        # logger.info('Mapping data > %s ' % repr(data))
        logger.info(
            'Mapping > %s -> %s > %d bytes.' % (conn_receiver.getpeername(), conn_sender.getpeername(), len(data)))

    conn_receiver.close()
    conn_sender.close()

    return


# 端口映射请求处理
def tcp_mapping_request(local_conn, remote_ip, remote_port):
    remote_conn = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

    try:
        remote_conn.connect((remote_ip, remote_port))
    except Exception:
        local_conn.close()
        logger.error('Unable to connect to the remote server.')
        return

    threading.Thread(target=tcp_mapping_worker, args=(local_conn, remote_conn)).start()
    threading.Thread(target=tcp_mapping_worker, args=(remote_conn, local_conn)).start()

    return


# 端口映射函数
def tcp_mapping(remote_ip, remote_port, local_ip, local_port):
    local_server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    local_server.bind((local_ip, local_port))
    local_server.listen(5)

    logger.debug('Starting mapping service on ' + local_ip + ':' + str(local_port) + ' ...')

    while True:
        try:
            (local_conn, local_addr) = local_server.accept()
        except KeyboardInterrupt as Exception:
            local_server.close()
            logger.debug('Stop mapping service.')
            break

        threading.Thread(target=tcp_mapping_request, args=(local_conn, remote_ip, remote_port)).start()

        logger.debug('Receive mapping request from %s:%d.' % local_addr)

    return


# 主函数
if __name__ == '__main__':
    tcp_mapping(CFG_REMOTE_IP, CFG_REMOTE_PORT, CFG_LOCAL_IP, CFG_LOCAL_PORT)