RCaller 사용 후기.

RCaller를 고생해서 환경 구축을 했더니....생각보다 기능이 좋다고 JRI보다 환경 구축하기 편하다고 말할 수 없다... 안 유명한데는 이유가 있는 듯 역시 그냥 JRI를 구축해서 쓰는게 더 간단하고 걍 JRI를 구축해서 쓰는게 레퍼런스 같은거 찾아 쓰기도 좋고 JRI는 그냥 .eval만 칠줄 알면 잘 된다.

Java에서 R 쓰는 법.

JAVA에서 R을 쓰는 법은 기록으로 남겨져야할 충분한 이유가 있음~!!!!( 좋은거 못찾앗음. ) 왜냐하면 내가 고생했기 때문이지. 어제 노는 날이었는데 7시부터 가서 스타벅스 문닫을 때까지 노트북만 보고 있.었.다. 그리고 아침부터 출근해서 까지 계속하고있었음. 불완전하긴 하지만 하긴했음. 1. JAVA Maven을 일단 깔아야한다. 최신버전으로 받으면 된다. 친절하게 링크를 걸진 않을 것임. 왜냐하면 구글에서 maven을 치면 나오니까 2. 그리고 Rcaller라는 걸 GITHUB에서 검색해서 다운로드 받아라.     (현재는 17년 5월 4일 난 버전 3.0 이었음) JRI 찾다가 귀찮아서 찾아냈음. 역시 구글갓! 3. zip파일 압축을 풀고     RCaller 3.0 버전은 R을 3.0.2 버전을 사용하고 있는데. 이걸 바꿀수 있다.     ( 나 땐 R버전이 3.4.0 이었음. )     rcaller-master\rcaller-master\RCaller\src\main\java\com\github\rcaller\util     폴더의 Globals.java를 열어서                 public static String RScript_Windows                 public static String R_Windows                 변수를 사용하는 R버전에 맞게 수정하면 된다. ( 더 친절하면 창렬이야.)    그렇다면 준비사항은 끝이났고    cmd창을 열어서 Rcaller 폴더로 이동한다.( pom 파일이 있는 곳이다. )   ...

ARIMA MODELS

Autogressive Integrated Moving Average Models - 넓은 범위의 시계열 데이터를 표현할 수 있다. - 미래에 관측 하는 값에 대한 신뢰 적인 시간 범위?를 구할 수 있다고 한다. - Box-Jenkins approach 박스 젠킨스 모델은 2가지가 있는 듯하다.     1) 단일변수     2) 다중변수 ( Transfer function ) 일반적이다. Transfer Function Model 은 Lagged Regression이라고 말할 수 있다. Transfer function model - 프로세스 관리에 많이 사용된다. ( Control Equation , Feed-Forward Model, Feed-Back Model ) - 설정되어진 변화와 랜덤하게 변화의 부분을 동시에 고려할 수 있다. 모델의 구축 과정 1 ) 모델의 정의 ? 2 ) 모델의 파라미터를 예측한다. 3 ) 모델이 적합 하다면 ?? 평가       Yes - 바로 써먹는 거지! 바로 이 모델로 미래를 예측하는 것이야!!!       No  - 모델을 수정한다. 그리고 다시 2) 으로 돌아가서 다시 평가함. 모델을 정의하기  - Autocorrelation , Partial-autocorrelation 함수를 써서 모델의 후보군을 도출한다. 모델 측정  - Error가 최소가 되게 하는 모델 내 파라미터를 추정한다. 모델 내의 파라미터 값을 결정한다. 모델 적합성 검사  - 통계 테스트를 통한 모델의 타당성을 검증해서 좋은 모델을 선택한다. 모델을 통한 예측 - 미래에 나올 측정값의 추정치와 Confidence Interval 을 계산한다.

Self-Projecting ( 자체 - 추정 ) - 2

Classical Smoothing Spline : 3차 cubic polynomial ( 3차 방정식? 일듯 )을 사용하여 각 노트 별로 연속되게 만듬. Exponential Smoothing : 최근의 관측값과 예측값의 평균으로 다음 예측값을 계산하는 방법.                                          예 ) ARIMA (0, 1, 1) <- 내가 필요한 것이 이 것인가??? 그 밖에 Nearest Neighbor Regression 과 Lowess Regression 등등 여러 방법이 적용 가능하다고 함. 단점! - 모형을 찾는 뚜렷한 방법이 없음 ( 체계적이다 못하다. ) - 선택된 방법의 범위 내에서 찾아내는 수 밖에 없다. - 잘 작동하는 지 검증이 어려움 ( 그럼에도 유일한 방법이라고 하는 건가 ? )

Self-Projecting ( 자체 - 추정 ) - 1

Classical 한 방법 ( 클래ㅅ ㅣ컬???? 고급지다... ) 1. 전체적 트렌드를 찾아내라. ( 다양한 통계 모형을 적용 해봐라. ) 2. 트렌드를 제거해라... 잔차?를 구해라. 트렌드를 제거 ( detrend ) - Linear Trend를 제거하라. 경향식 돈까스... 메뉴에서 뺴버려. 잔차 ( resudual ) - 평균이 아닌 회귀식 같이 추정된 값과의 차이. 표본의 회귀적 값.                          원래 값과 추정된 값의 차이. ( ㅇㅅㅇ ) 3. 시그널에 대해서 '랜덤요소' 분석을 해라. (트렌드 따라 가면 안되남?) 4. ACs ( Autocorrelation, 자기상관계수 ), ACF( Autocorrelation Function )    두 변수 사이의 선형적인 관계의 정도, Agitation?    자체 시계열 데이터 내에서 얼마나 선형적 연관성이 있는 가?    lag K ?    t(Time)에서의 Z 와 K만큼 Shift시킨 t-K에서의 Z값  사이의 연관성. 트렌드를 찾아 나서는 방법. ( 일.반.적.으.로. )  Polynomial Regression  - Regression을 다항식으로 표현하는 것.  Moving Average Smoother - MA(이동평균), 가지고 있는 값들의 부분집합의 평균  Kernel Smoothing - 겁나 어려운 거라고 한다. 다음에 또해야지~

시계열 데이터의 통계적 분석 방법

시계열 데이터란? 시간에서 순차적으로 (Sequentially) 관측한 값들의 집합. Continuous한 것이 아닌 Discrete한 시계열들에 관심을 가지는 듯하다. f ( time_1) -> f ( time_2 ) -> f ( time_3 ) -> f ( time_4 ) -> f ( time_5) -> ... 시간간의 간격이 같다고 보는게 맞고 빠진 값이 없다고 보는 것이 맞다고 생각함.(그러하다) 만약 빠진 데이터가 있으면 ( 군데군데 ) EM 알고리즘으로 채워 넣는 다고 함. 시계열 데이터의 요소는 크게 2가지로 보는 듯 하다. 1. 패턴 요소 ( 트렌드 패턴, 시즈널 패턴, 주기 패턴, 기타 통계적 패턴) 2. 랜덤 요소 시계열 데이터의 응용은  같은 시계열에서의 관계 분석 - A(timePoint) 와 B(timePoint)의 같은 시계열에서의 관계.  하나의 프로세스를 관리하거나 표현하는 방법 ( ??? )  예측 ( 필요하다... 당장! ) 분석을 위한 접근 방법  자체-추정 VS 원인 - 결과  Self-Projecting은 적은 데이터로 초기 분석 용. Long-term예측 잼병, 외부 요소 고려 못함.  Cause-and-Effect는 상대적으로 많은 데이터로 복잡한 과정을 필요로 한다.

Metaassembler - ReadMe file 정리

 드노보 어셈블리다. (아마 레퍼런스 없이 지들끼리 어셈블 시키는 걸로 기억함.)  여러 어셈블리 합쳐서 가장 좋게 만드는 거 ( 잡곡밥...) 메타 어셈블리를 동작시키는 2가지 방법이 있다. -입력 파일을 .config 로 바꿔서 assemble 하는 방법   MergeMetassemble 폴더가 만들어지고 결과 과정 다 저장됨. -다른 방법은 모든  과정마다 동작? 수작업? Where is the MANUAL??? https://sourceforge.net/projects/metassembler/files/Metassemble_manual.pdf/download 과정   1. Mapping ( bowtie2 )  2. CE-statistic을 계산 ( mateAn )   3. Whole Genome Alignment를 계산  이상한  Align 필터링. ( nucmer, delta-filter )  4. 2번 3번 과정을 이용해서 Merging... ( asseMerge )  5. 결과를 잘 추려내서 만듬.  ( meta2fasta )  이 정도로 하면 될 거 같음. 메뉴얼 뒤쪽에는 툴에 대한 사용법이니 기록하지 않겠음.