第8行: |
第8行: |
| | | |
| 时间序列分析需要提取时间序列数据中有意义的统计特征以及数据的其他特征。时间序列分析涉及到时间序列的预测。时间序列预测是一种基于先前观测到的值去使用模型来预测未来值的方法。虽然回归分析经常被用于分析一个或多个不同时间序列之间的关系,但这种类型的分析通常不被称为 "时间序列分析"。时间序列分析特指的是分析单一序列中不同时间点之间的关系,也会分析被干预的时间序列(分析时间序列在接受干预前后的变化)。这种干预可能会影响基础变量。 | | 时间序列分析需要提取时间序列数据中有意义的统计特征以及数据的其他特征。时间序列分析涉及到时间序列的预测。时间序列预测是一种基于先前观测到的值去使用模型来预测未来值的方法。虽然回归分析经常被用于分析一个或多个不同时间序列之间的关系,但这种类型的分析通常不被称为 "时间序列分析"。时间序列分析特指的是分析单一序列中不同时间点之间的关系,也会分析被干预的时间序列(分析时间序列在接受干预前后的变化)。这种干预可能会影响基础变量。 |
− |
| |
− |
| |
− |
| |
| | | |
| | | |
第24行: |
第21行: |
| 此外,时间序列分析技术可分为参数化和非参数化方法。参数方法假定基础的平稳随机过程具有某种结构,可以用少量的参数来描述(例如,使用自回归或移动平均模型)。在这些方法中,时间序列分析的任务是估计描述随机过程的模型的参数。相比之下,非参数方法明确地估计过程的协方差或频谱,而不假设过程有任何特定的结构。 | | 此外,时间序列分析技术可分为参数化和非参数化方法。参数方法假定基础的平稳随机过程具有某种结构,可以用少量的参数来描述(例如,使用自回归或移动平均模型)。在这些方法中,时间序列分析的任务是估计描述随机过程的模型的参数。相比之下,非参数方法明确地估计过程的协方差或频谱,而不假设过程有任何特定的结构。 |
| | | |
| + | 时间序列分析的方法也可以分为线性和非线性,以及单变量 和多变量。 |
| + | ==面板数据== |
| + | |
| + | |
| + | 时间序列是面板数据的一种类型,面板数据是更大的类别。面板数据是一个多维的数据集,而时间序列数据集是一个一维的面板(正如截面数据集一样)。一个数据集可能同时表现出面板数据和时间序列数据的特征。判断是面板数据还是时间序列的方法之一是探究使一条数据记录与其他记录不同的因素。如果答案是时间数据字段,那么这就是一个时间序列数据集候选。如果确定一个独特的记录需要一个时间数据字段和一个与时间无关的额外标识符(如学生证、股票代码、国家代码),那么它就是面板数据的候选。如果区别在于非时间标识符,那么该数据集就是一个截面数据集候选。 |
| | | |
| + | ==Analysis分析== |
| | | |
| | | |
| + | 不同目的的时间序列适用的动机和数据分析方法都不同。 |
| + | |
| + | ===动机=== |
| | | |
− | 时间序列分析的方法也可以分为线性和非线性,以及单变量 和多变量。
| |
| | | |
− | ==面板数据== | + | 在统计学、计量经济学、定量金融、地震学、气象学和地球物理学方面,时间序列分析的主要目标是预测。在信号处理、控制工程和通信工程方面,它被用于信号检测。在数据挖掘、模式识别和机器学习等其他应用中,时间序列分析可用于聚类、分类、按内容查询<ref name=":4">{{cite conference|last1=Agrawal|first1=Rakesh|last2=Faloutsos|first2=Christos|last3=Swami|first3=Arun|date=October 1993|title=Efficient Similarity Search In Sequence Databases|conference=International Conference on Foundations of Data Organization and Algorithms|volume=730|pages=69–84|book-title=Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms|doi=10.1007/3-540-57301-1_5}}{{Subscription required|via=SpringerLink}}</ref>、异常检测以及预测。 |
− | A time series is one type of [[panel data]]. Panel data is the general class, a multidimensional data set, whereas a time series data set is a one-dimensional panel (as is a [[cross-sectional data]]set). A data set may exhibit characteristics of both panel data and time series data. One way to tell is to ask what makes one data record unique from the other records. If the answer is the time data field, then this is a time series data set candidate. If determining a unique record requires a time data field and an additional identifier which is unrelated to time (e.g. student ID, stock symbol, country code), then it is panel data candidate. If the differentiation lies on the non-time identifier, then the data set is a cross-sectional data set candidate.
| |
| | | |
− | 时间序列是面板数据的一种类型,面板数据是更大的类别。面板数据是一个多维的数据集,而时间序列数据集是一个一维的面板(正如截面数据集一样)。一个数据集可能同时表现出面板数据和时间序列数据的特征。判断的方法之一是探究是什么使一条数据记录与其他记录不同。如果答案是时间数据字段,那么这就是一个时间序列数据集候选。如果确定一个独特的记录需要一个时间数据字段和一个与时间无关的额外标识符(如学生证、股票代码、国家代码),那么它就是面板数据的候选。如果区别在于非时间标识符,那么该数据集就是一个截面数据集候选。
| + | ===探索性分析=== |
| + | [[File:Tuberculosis incidence US 1953-2009.png|thumb|Tuberculosis incidence US 1953-2009美国1953-2009年结核病发病率|链接=Special:FilePath/Tuberculosis_incidence_US_1953-2009.png]] |
| | | |
− | ==Analysis分析==
| |
− | There are several types of motivation and data analysis available for time series which are appropriate for different purposes.
| |
| | | |
− | 对于具有不同目的的时间序列,适用的动机和数据分析方法都不同。
| + | 绘制折线图是分析常规时间序列的直观方法。右侧显示了一个使用电子表格程序制作的美国结核病发病率示例图表。病例的数量被标准化为每10万人的比率,并计算出该比率每年的变化百分比。几乎稳定下降的线条表明,结核病发病率在大多数年份都在下降,但该比率的变化百分比高达+/-10%,且在1975年和20世纪90年代初前后出现了 "激增"。图中应用了两个纵轴,可以在一个图表中比较两个时间序列。 |
| | | |
− | ===Motivation动机===
| |
− | In the context of [[statistics]], [[econometrics]], [[quantitative finance]], [[seismology]], [[meteorology]], and [[geophysics]] the primary goal of time series analysis is [[forecasting]]. In the context of [[signal processing]], [[control engineering]] and [[communication engineering]] it is used for signal detection. Other applications are in [[data mining]], [[pattern recognition]] and [[machine learning]], where time series analysis can be used for [[cluster analysis|clustering]],<ref name=":1">{{cite journal | last1 = Liao | first1 = T. Warren | title = Clustering of time series data - a survey | journal = Pattern Recognition | volume = 38 | issue = 11 | pages = 1857–1874 | publisher = Elsevier | date = 2005 | language = en | doi = 10.1016/j.patcog.2005.01.025| bibcode = 2005PatRe..38.1857W }}{{subscription required|via=ScienceDirect }}</ref><ref name=":2">{{cite journal | last1 = Aghabozorgi | first1 = Saeed | last2 = Shirkhorshidi | first2 = Ali S. | last3 = Wah | first3 = Teh Y. | title = Time-series clustering – A decade review | journal = Information Systems | volume = 53 | pages = 16–38 | publisher = Elsevier | date = 2015 | language = en | doi = 10.1016/j.is.2015.04.007}}{{subscription required|via=ScienceDirect }}</ref> [[Statistical classification|classification]],<ref name=":3">{{cite journal | last1 = Keogh | first1 = Eamonn J. | title = On the need for time series data mining benchmarks | journal = Data Mining and Knowledge Discovery | volume = 7 | pages = 349–371 | publisher = Kluwer | date = 2003 | language = en | doi = 10.1145/775047.775062| isbn = 158113567X | s2cid = 41617550 }}{{subscription required|via=ACM Digital Library }}</ref> query by content,<ref name=":4">{{cite conference|last1=Agrawal|first1=Rakesh|last2=Faloutsos|first2=Christos|last3=Swami|first3=Arun|date=October 1993|title=Efficient Similarity Search In Sequence Databases|conference=International Conference on Foundations of Data Organization and Algorithms|volume=730|pages=69–84|book-title=Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms|doi=10.1007/3-540-57301-1_5}}{{Subscription required|via=SpringerLink}}</ref> [[anomaly detection]] as well as [[forecasting]].<ref name=":5">{{cite journal|last1=Chen|first1=Cathy W. S.|last2=Chiu|first2=L. M.|date=September 2021|title=Ordinal Time Series Forecasting of the Air Quality Index|journal=Entropy|language=en|volume=23|issue=9|pages=1167|doi=10.3390/e23091167|pmid=34573792|pmc=8469594|bibcode=2021Entrp..23.1167C|doi-access=free}}</ref>
| |
| | | |
− | 在统计学Statistics、计量经济学Econometrics、定量金融学Quantitative finance、地震学Seismology、气象学Meteorology和地球物理学Geophysics方面,时间序列分析的主要目标是预测Forecasting。在信号处理Signal processing、控制工程Control engineering和通信工程Communication engineering方面,它被用于信号检测。在数据挖掘Data mining、模式识别Pattern recognition和机器学习Machine learning等其他应用中,时间序列分析可用于聚类Clustering<ref name=":1" /><ref name=":2" />、分类Classification<ref name=":3" />、按内容查询<ref name=":4" />、异常检测Anomaly detection以及预测Forecasting<ref name=":5" />。
| |
| | | |
− | ===Exploratory analysis探索性分析===
| |
− | [[File:Tuberculosis incidence US 1953-2009.png|thumb|Tuberculosis incidence US 1953-2009美国1953-2009年结核病发病率|链接=Special:FilePath/Tuberculosis_incidence_US_1953-2009.png]]
| |
− | {{further|Exploratory analysis}}
| |
− | A straightforward way to examine a regular time series is manually with a [[line chart]]. An example chart is shown on the right for tuberculosis incidence in the United States, made with a spreadsheet program. The number of cases was standardized to a rate per 100,000 and the percent change per year in this rate was calculated. The nearly steadily dropping line shows that the TB incidence was decreasing in most years, but the percent change in this rate varied by as much as +/- 10%, with 'surges' in 1975 and around the early 1990s. The use of both vertical axes allows the comparison of two time series in one graphic.
| |
| | | |
− | 绘制折线图Line chart是检查常规时间序列的直观方法。右侧显示了一个使用电子表格程序制作的美国结核病发病率示例图表。病例的数量被标准化为每10万人的比率,并计算出该比率每年的变化百分比。几乎稳定下降的线条表明,结核病发病率在大多数年份都在下降,但该比率的变化百分比高达+/-10%,在1975年和20世纪90年代初前后出现了 "激增"。图中应用了两个纵轴,使得可以在一个图表中比较两个时间序列。
| |
| | | |
| + | 一项对企业数据分析师的研究发现,探索性时间的序列分析有两个挑战:发现新模式,以及为这些模式找到解释<ref name=":6">{{Cite journal|last=Sarkar|first=Advait|last2=Spott|first2=Martin|last3=Blackwell|first3=Alan F.|last4=Jamnik|first4=Mateja|date=2016|title=Visual discovery and model-driven explanation of time series patterns|url=https://doi.org/10.1109/VLHCC.2016.7739668|journal=2016 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)|publisher=IEEE|doi=10.1109/vlhcc.2016.7739668}}</ref>。将时间序列数据可视化为热力图矩阵的工具可以帮助解释这些模式。 |
| | | |
− | A study of corporate data analysts found two challenges to exploratory time series analysis: discovering the shape of interesting patterns, and finding an explanation for these patterns.<ref name=":6">{{Cite journal|last=Sarkar|first=Advait|last2=Spott|first2=Martin|last3=Blackwell|first3=Alan F.|last4=Jamnik|first4=Mateja|date=2016|title=Visual discovery and model-driven explanation of time series patterns|url=https://doi.org/10.1109/VLHCC.2016.7739668|journal=2016 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)|publisher=IEEE|doi=10.1109/vlhcc.2016.7739668}}</ref> Visual tools that represent time series data as [[Heat map|heat map matrices]] can help overcome these challenges.
| |
| | | |
− | 一项对企业数据分析师的研究发现,探索性时间序列分析有两个挑战:发现有趣模式,以及为这些模式找到解释<ref name=":6" />。将时间序列数据可视化为热力图矩阵Heat map matrices的工具可以帮助克服这些挑战。
| |
| | | |
| | | |
− | Other techniques include:
| |
| | | |
| 其他技巧包括: | | 其他技巧包括: |
| | | |
− | * [[Autocorrelation]] analysis to examine [[serial dependence]] | + | * 通过自相关分析去检验序列相关性; |
− | * [[frequency spectrum#Spectrum analysis|Spectral analysis]] to examine cyclic behavior which need not be related to [[seasonality]]. For example, sunspot activity varies over 11 year cycles.<ref>{{cite book |last=Bloomfield |first=P. |year=1976 |title=Fourier analysis of time series: An introduction |location=New York |publisher=Wiley |isbn=978-0471082569 }}</ref><ref>{{cite book |last=Shumway |first=R. H. |year=1988 |title=Applied statistical time series analysis |location=Englewood Cliffs, NJ |publisher=Prentice Hall |isbn=978-0130415004 }}</ref> Other common examples include celestial phenomena, weather patterns, neural activity, commodity prices, and economic activity. | + | * 通过频谱分析来检查与季节性无关的周期性行为。例如,太阳黑子活动在一个周期内(11年)的变化。周期性行为常见的例子也包括天体现象、天气模式、神经活动、商品价格和经济活动; |
− | * Separation into components representing trend, seasonality, slow and fast variation, and cyclical irregularity: see [[trend estimation]] and [[decomposition of time series]] | + | * 将序列分离为代表趋势、季节性、慢速和快速变化以及周期性不规则的成分; |
− | | |
− | * 自相关分析检验序列相关性;
| |
− | * 频谱分析来检查与季节性无关的周期性行为。例如,太阳黑子活动在一个周期内(11年)的变化。其他常见的例子包括天体现象、天气模式、神经活动、商品价格和经济活动;
| |
− | * 将序列分离为代表趋势、季节性、慢速和快速变化以及周期性不规则的成分:见趋势估计和时间序列的分。
| |
| | | |
− | ===Curve fitting曲线拟合=== | + | ===曲线拟合=== |
| {{main|Curve fitting}} | | {{main|Curve fitting}} |
| | | |