4월, 2017의 게시물 표시

ARIMA MODELS

Autogressive Integrated Moving Average Models - 넓은 범위의 시계열 데이터를 표현할 수 있다. - 미래에 관측 하는 값에 대한 신뢰 적인 시간 범위?를 구할 수 있다고 한다. - Box-Jenkins approach 박스 젠킨스 모델은 2가지가 있는 듯하다.     1) 단일변수     2) 다중변수 ( Transfer function ) 일반적이다. Transfer Function Model 은 Lagged Regression이라고 말할 수 있다. Transfer function model - 프로세스 관리에 많이 사용된다. ( Control Equation , Feed-Forward Model, Feed-Back Model ) - 설정되어진 변화와 랜덤하게 변화의 부분을 동시에 고려할 수 있다. 모델의 구축 과정 1 ) 모델의 정의 ? 2 ) 모델의 파라미터를 예측한다. 3 ) 모델이 적합 하다면 ?? 평가       Yes - 바로 써먹는 거지! 바로 이 모델로 미래를 예측하는 것이야!!!       No  - 모델을 수정한다. 그리고 다시 2) 으로 돌아가서 다시 평가함. 모델을 정의하기  - Autocorrelation , Partial-autocorrelation 함수를 써서 모델의 후보군을 도출한다. 모델 측정  - Error가 최소가 되게 하는 모델 내 파라미터를 추정한다. 모델 내의 파라미터 값을 결정한다. 모델 적합성 검사  - 통계 테스트를 통한 모델의 타당성을 검증해서 좋은 모델을 선택한다. 모델을 통한 예측 - 미래에 나올 측정값의 추정치와 Confidence Interval 을 계산한다.

Self-Projecting ( 자체 - 추정 ) - 2

Classical Smoothing Spline : 3차 cubic polynomial ( 3차 방정식? 일듯 )을 사용하여 각 노트 별로 연속되게 만듬. Exponential Smoothing : 최근의 관측값과 예측값의 평균으로 다음 예측값을 계산하는 방법.                                          예 ) ARIMA (0, 1, 1) <- 내가 필요한 것이 이 것인가??? 그 밖에 Nearest Neighbor Regression 과 Lowess Regression 등등 여러 방법이 적용 가능하다고 함. 단점! - 모형을 찾는 뚜렷한 방법이 없음 ( 체계적이다 못하다. ) - 선택된 방법의 범위 내에서 찾아내는 수 밖에 없다. - 잘 작동하는 지 검증이 어려움 ( 그럼에도 유일한 방법이라고 하는 건가 ? )

Self-Projecting ( 자체 - 추정 ) - 1

Classical 한 방법 ( 클래ㅅ ㅣ컬???? 고급지다... ) 1. 전체적 트렌드를 찾아내라. ( 다양한 통계 모형을 적용 해봐라. ) 2. 트렌드를 제거해라... 잔차?를 구해라. 트렌드를 제거 ( detrend ) - Linear Trend를 제거하라. 경향식 돈까스... 메뉴에서 뺴버려. 잔차 ( resudual ) - 평균이 아닌 회귀식 같이 추정된 값과의 차이. 표본의 회귀적 값.                          원래 값과 추정된 값의 차이. ( ㅇㅅㅇ ) 3. 시그널에 대해서 '랜덤요소' 분석을 해라. (트렌드 따라 가면 안되남?) 4. ACs ( Autocorrelation, 자기상관계수 ), ACF( Autocorrelation Function )    두 변수 사이의 선형적인 관계의 정도, Agitation?    자체 시계열 데이터 내에서 얼마나 선형적 연관성이 있는 가?    lag K ?    t(Time)에서의 Z 와 K만큼 Shift시킨 t-K에서의 Z값  사이의 연관성. 트렌드를 찾아 나서는 방법. ( 일.반.적.으.로. )  Polynomial Regression  - Regression을 다항식으로 표현하는 것.  Moving Average Smoother - MA(이동평균), 가지고 있는 값들의 부분집합의 평균  Kernel Smoothing - 겁나 어려운 거라고 한다. 다음에 또해야지~

시계열 데이터의 통계적 분석 방법

시계열 데이터란? 시간에서 순차적으로 (Sequentially) 관측한 값들의 집합. Continuous한 것이 아닌 Discrete한 시계열들에 관심을 가지는 듯하다. f ( time_1) -> f ( time_2 ) -> f ( time_3 ) -> f ( time_4 ) -> f ( time_5) -> ... 시간간의 간격이 같다고 보는게 맞고 빠진 값이 없다고 보는 것이 맞다고 생각함.(그러하다) 만약 빠진 데이터가 있으면 ( 군데군데 ) EM 알고리즘으로 채워 넣는 다고 함. 시계열 데이터의 요소는 크게 2가지로 보는 듯 하다. 1. 패턴 요소 ( 트렌드 패턴, 시즈널 패턴, 주기 패턴, 기타 통계적 패턴) 2. 랜덤 요소 시계열 데이터의 응용은  같은 시계열에서의 관계 분석 - A(timePoint) 와 B(timePoint)의 같은 시계열에서의 관계.  하나의 프로세스를 관리하거나 표현하는 방법 ( ??? )  예측 ( 필요하다... 당장! ) 분석을 위한 접근 방법  자체-추정 VS 원인 - 결과  Self-Projecting은 적은 데이터로 초기 분석 용. Long-term예측 잼병, 외부 요소 고려 못함.  Cause-and-Effect는 상대적으로 많은 데이터로 복잡한 과정을 필요로 한다.

Metaassembler - ReadMe file 정리

 드노보 어셈블리다. (아마 레퍼런스 없이 지들끼리 어셈블 시키는 걸로 기억함.)  여러 어셈블리 합쳐서 가장 좋게 만드는 거 ( 잡곡밥...) 메타 어셈블리를 동작시키는 2가지 방법이 있다. -입력 파일을 .config 로 바꿔서 assemble 하는 방법   MergeMetassemble 폴더가 만들어지고 결과 과정 다 저장됨. -다른 방법은 모든  과정마다 동작? 수작업? Where is the MANUAL??? https://sourceforge.net/projects/metassembler/files/Metassemble_manual.pdf/download 과정   1. Mapping ( bowtie2 )  2. CE-statistic을 계산 ( mateAn )   3. Whole Genome Alignment를 계산  이상한  Align 필터링. ( nucmer, delta-filter )  4. 2번 3번 과정을 이용해서 Merging... ( asseMerge )  5. 결과를 잘 추려내서 만듬.  ( meta2fasta )  이 정도로 하면 될 거 같음. 메뉴얼 뒤쪽에는 툴에 대한 사용법이니 기록하지 않겠음.