[R] 자료 객체 (1): 벡터 vector

2018. 5. 27. 20:59

R 벡터

이 글에서는 R의 자료 객체(data objects) 중 벡터에 대해 다뤄보고자 한다.

char <- c(1.5, 3L, "r", "markdown")
class(char)

## [1] "character"

앞서 본 것처럼 c() 함수를 이용한다.
- 여기서 흥미로운 것(?)은 벡터끼리의 결합이 가능하다는 것이다.
is.vector()를 사용해 주어진 객체가 벡터인지 확인할 수 있다.
연산자 “:”을 사용하면 노가다를 하지 않을 수 있다. “a:b”는 a가 초항이고 b가 끝 항인, 공차가 1인 등차수열을 의미한다. a, b는 음의 수여도 상관 없다.
- 연산자 “:”는 우선순위를 가진다. 아래의 식을 보면, R은 1:10의 연산을 먼저 처리해 1부터 10까지의 길이가 10인 벡터를 생성하고, 그 벡터 각각의 원소에 대해 1을 더하는 연산을 마지막으로 수행했음을 알 수 있다.

vec1 <- c(1, 2, 3)
vec2 <- c(vec1, 4, 5, 6); vec2

## [1] 1 2 3 4 5 6

vec3 <- c(6:-3)
1 : 10 + 1 # 연산자 :의 우선순위

##  [1]  2  3  4  5  6  7  8  9 10 11

vec_name <- c(one=1, two=2)
names(vec_name)

## [1] "one" "two"

rep 함수는 한 대상을 반복해 주는 함수이다. 함수는 다음과 같은 구문으로 구성된다.
rep(x, times = n, length.out = NA, each = m)
- 여기서 x는 반복대상으로, 벡터나 팩터 모두 될 수 있다.
- times는 말 그대로 반복횟수이다.
- length.out은 출력자료의 객체 길이를 제한하는 데에 쓰인다.
- each는 벡터 내 데이터 원소 각각의 반복 횟수이다.

rep(c(0, 1), times = 3, each = 2)

##  [1] 0 0 1 1 0 0 1 1 0 0 1 1

rep(c(0, 1), 5, length.out = 5)

## [1] 0 1 0 1 0

rep(0, 10)

##  [1] 0 0 0 0 0 0 0 0 0 0

seq(from = n, to = m, by = x, length.out = NULL, along.with = NULL)
seq는 말 그대로 수열을 생성해주는 함수이다. by는 증분(incremental)을 의미하고, length.out은 앞의 rep 함수에서 살펴본 것처럼 출력자료(수열)의 길이를 지정해 준다.
- from과 to에는 숫자만이 올 수 있다.
- by를 생략하는 대신 length.out을 지정하면, 증분이 수열 길이에 맞춰 적절히 설정되는 것을 볼 수 있다.
along.with는 지정한 객체와 같은 길이의 수열을 생성해 준다.

seq(from = 1, to = 10) # 1:10과 동일한 기능

##  [1]  1  2  3  4  5  6  7  8  9 10

seq(from = 0.5, to = 10.9, by = 3)

## [1] 0.5 3.5 6.5 9.5

seq(from = 1, to = 5, length.out = 10)

##  [1] 1.000000 1.444444 1.888889 2.333333 2.777778 3.222222 3.666667
##  [8] 4.111111 4.555556 5.000000

x = 1:5
seq(3, 5, along.with = x)

## [1] 3.0 3.5 4.0 4.5 5.0

abc <- vector(mode = "logical", length = 3)
abc[2] = TRUE
abc

## [1] FALSE  TRUE FALSE

x <- 1:10
x[3] # 3번째 성분 출력

## [1] 3

x[-3] # 3번째를 제외한 성분 출력

## [1]  1  2  4  5  6  7  8  9 10

x[c(1, 3, 5)] <- 0; x

##  [1]  0  2  0  4  0  6  7  8  9 10

y <- 1:4
y[c(TRUE, FALSE, TRUE, FALSE)]

## [1] 1 3

벡터 연산의 기본 원칙은 성분 대 성분이다.
- 연산하는 두 벡터의 길이가 같은 경우 대응되는 각 성분끼리 연산을 한다.
- 길이가 다른 경우 긴 벡터의 길이에 맞춰져 길이가 작은 벡터가 재활용된다. (warning 출력)

e <- c(exp(1), exp(2), exp(3))
log(e); sum(e); prod(e); max(e)

## [1] 1 2 3

## [1] 30.19287

## [1] 403.4288

## [1] 20.08554

m <- 1:5
n <- 1:3 
m + n

## Warning in m + n: longer object length is not a multiple of shorter object
## length

## [1] 2 4 6 5 7

R에서는 scalar와 vector의 addition을 어떻게 처리할까? 보통 이 둘은 더해지지 못하나 R에서는 그냥 더한다. (element by element.) scalar와 vector의 곱은 일반적으로 생각하는 것과 같다.
벡터 간의 비교 연산
- 모든 성분의 값이 TRUE 인지 확인하려면 all() 함수 사용
- TRUE 성분이 적어도 하나 존재하는지 확인하려면 any() 함수 사용

add <- 1:3
add + 1

## [1] 2 3 4

add * 2

## [1] 2 4 6

# 벡터 간의 비교 연산
p <- 1:10; q <- -5:4; r <- 11:13
p <= 5

##  [1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE

p > q

##  [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

p < q

##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

p > r # 벡터 길이가 다르기에 warning 출력

## Warning in p > r: longer object length is not a multiple of shorter object
## length

##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

any (p > q)

## [1] TRUE

all (p < r)

## Warning in p < r: longer object length is not a multiple of shorter object
## length

## [1] TRUE

[R] identical, all equal 함수의 차이 (0)	2018.05.27
[R] 자료 객체 (2): 행렬 matrix (0)	2018.05.27
[R] 변수 할당 및 데이터 유형 (0)	2018.05.27
[통계학] 분산분석(ANOVA; Analysis of Variance) (0)	2018.02.08
[통계학] 범주형 변수 간의 연관 분석 (0)	2018.02.02

Poinciana