滑動窗口

nolan ? 2017-11-04 20:54 ? Python干貨

數據載入

def load(path:str):
    with open(path) as f:
        for line in f:
            tmp = extract(line)
            if tmp:
                yield tmp
            else:
                # TODO 解析失敗就拋棄，或者打印日志
                continue

時間窗口分析

概念

很多數據，例如日志，都和時間相關的，都是按照時間順序產生的。
產生的數據分析的時候，要按照時間求值

interval 表示每一次求值的時間間隔
width 時間窗口寬度，指的一次求值的時間窗口寬度

當width > interval

數據求值是會有重疊

當width = interval

數據求值沒有重疊

當width < interval

一般不采納，因為這樣會有數據流失

時序數據

運行環境中，日志、監控等產生的數據都是與時間相關的數據，按照時間先后產生并記錄下來的數據，所以一般按照時間對數據進行分析

時序數據分析的節本程序結構

隨機生成幾個數，產生時間相關的數據，返回時間 + 隨機數

每次取三個值，求平均值

import random
import datetime
import time

def f():
    while True:
        yield {'value':random.randrange(100), 'time':datetime.datetime.now()}
        time.sleep(1)

src = f()
items = [next(src) for _ in range(3)]

def handler(iterable):
    vals = [x['value'] for x in iterable]
    return sum(vals) / len(vals)

print(items)
print(handler(items))

窗口函數實現

import random
import datetime
import time

# 數據源函數
def f():
    while True:
        yield {'value':random.randrange(100), 'time':datetime.datetime.now()}
        time.sleep(5)

def window(src, handler, width:int, interval:int):
    """
    窗口函數
    :param src: 數據源，生成器，用來拿數據
    :param handler: 數據處理函數
    :param width: 時間窗口寬度，秒
    :param interval: 處理時間間隔，秒
    """

    # 初始兩個時間段
    start = datetime.datetime.strptime('20170101 00:00:00', '%Y%m%d %H:%M:%S')
    current = datetime.datetime.strptime('20170101 00:01:00', '%Y%m%d %H:%M:%S')

    buffer = [] # 窗口中待計算的數據
    delta = datetime.timedelta(seconds = width - interval)

    while True:
        # 從數據源獲取數據
        data = next(src)

        # 存入臨時緩沖等待計算
        if data: # 篩掉不符合的數據
            buffer.append(data)
            current = data['time']

        # 進入循環開始操作
        if (current - start).total_seconds() >= interval:
            ret = handler(buffer)
            print('{:.2f}'.format(ret))
            start = current

            # 處理重疊的數據
            buffer = [x for x in buffer if x['time'] > current - delta]


def handler(iterable):
    vals = [x['value'] for x in iterable]
    return sum(vals) / len(vals)

第41行current – delta是因為現在的current還沒有更新，而current的時間值到當前current時間值之間的數據正好是重疊的數據
當width和interval給一樣的時候，那么delta為0，所以不會有重復數據

相當于用給定的width往后滑動，一下走這么多interval
比如這個，是時間寬為4往下走，兩個兩個的往后走，所以每次會有兩個重復的數據

本文來自投稿，不代表Linux運維部落立場，如若轉載，請注明出處：http://www.www58058.com/88218

贊 (1)

0

crm命令行命令詳解

上一篇 2017-11-04 11:20

正則表達式

下一篇 2017-11-05 00:13

Python 部分知識點總結（一）

此篇博客只是記錄第三周未掌握或不熟悉的知識點，用來加深印象。

Python筆記 2018-03-26
Python干貨

Python學習之Second_Week Notes

list列表、tuple元組、str字符串

2017-09-23
Python干貨

python 解釋器,版本&環境管理工具pyenv在centos6.9安裝教程

1.pyenv安裝
2.IPython->增強的Python shell & Jupyter notebook->IPython notebook 安裝
3.pip安裝->python包管理器

2017-09-12
Python函數式編程指南：目錄和參考

目錄：概述這一篇簡要地描述了函數式編程和一些相關的概念。函數這一篇展示了關于函數可能不常用到的部分特征并嘗試引導諸位使用函數式的思維解決問題，并介紹了諸多有用的內建函數。迭代器這一篇介紹了迭代器以及Python對迭代器的語法級的支持，還包括了內置模塊itertools的介紹。生成器這一篇介紹了自定義的迭代器——生成器，并展示了生成器的用途和使…

Linux干貨 2015-03-11
Python筆記

python安裝失敗原因分析（未指定錯誤0x80072efd）

python安裝時間很長，最終報錯未指定錯誤0x80072efd 原因分析： download dubugging symbols download debug binaries 這兩項需要聯網（外網），國內安裝會超時報錯。所以安裝時取消這兩項就可以安裝成功

2018-08-09
二叉樹的遍歷和堆排序

二叉樹的遍歷和堆排序

Python筆記 2018-05-16

欧美性久久久久