[clearfix]
1. 개요
선단공정 상위 4개사의 기술력 비교에 대한 문서.- 사업 관련 내용이나 팹리스 사로부터의 수주와 관련된 내용은 윗 문단에 적고 본 문단에는 기술적인 부분만 작성합니다.
- PPA의 비교는 되도록이면 동일 아키텍처를 통하여 비교합니다.
파운드리 업계에서 10nm 혹은 그 이하의 미세공정 양산에 성공한 기업은 현재 시점에서 TSMC와 삼성전자 파운드리 사업부, 인텔 파운드리가 존재한다. UMC 등의 파운드리 회사들이 미세공정 양산을 위하여 연구중이지만 위에 언급된 3개의 회사를 따라잡기에는 역부족인 것으로 보이고, 중국의 SMIC가 유일하게 잠재력이 있는 것으로 보인다.[1]
이 4사의 기술력을 비교하기 위해서는 양산 수율이 어느 시점에 본 궤도에 올랐는지와, 공정 자체의 PPA, 즉 Performance, Power, Area 측면에서의 자료가 필요하다.
특히 회사마다 기준이 다르기 때문에 같은 Xnm 공정으로 표기되어 있어도 위 사진 같이 회로의 크기와 조밀도가 제각각 임으로 단순히 타회사의 작은 nm공정이 성능이 좋다고 말하기 힘들다.
다행이 전자현미경의 발달로 성능에 절대적인 영향을 주는 Area, 즉 면적과 면적의 역수인 트랜지스터 밀도는 상대적으로 쉽게 파악할 수 있으나 Performance, Power는 각 회사들이 정보를 쉽게 공개하지 않기 때문에 최대한 비슷한 조건에서의 결과를 통하여 간접적으로 추론해 내야 한다. 아래의 비교 자료들도 PPA + 양산 시점을 기준으로 서술됐다.
2. 20/22 nm
- [ SPEC 기준 성능, 전력 비교 데이터 펼치기 · 접기 ]
- ||<tablealign=center><width=50%> ||<width=50%> ||
SPEC 2006 기준 CPU 연산 성능과 전력 대비 성능 비교 데이터
TSMC의 20nm 공정은 20SoC 라는 명칭이 부여됐고, 삼성전자 S.LSI(現 파운드리 사업부)의 20nm 공정은 20LPE라는 명칭이 부여됐다.
동일한 Cortex-A57, Cortex-A53 CPU를 20SoC, 20LPE에서 양산한 결과 두 공정간의 전력 대비 성능 격차는 매우 크게 벌어진다는 사실을 알 수 있다. 삼성의 Cortex-A57은 단 1.77W를 소모하는데 비해 TSMC의 Cortex-A57은 2.8W에 육박하는 전력을 소모하고, Cortex-A53은 Perf/W가 거의 두 배 차이로 벌어지는 것을 볼 수 있다. 물론 삼성이 사용한 Cortex-A57/A53은 ARM이 제공한 RTL에서 전력, 면적 측면을 개선 시키는 추가적인 최적화가 이루어 졌기 때문에 완전히 동일한 조건에서의 수평적인 비교라고 보기는 어렵지만, ARM측의 설계 미스가 분명히 존재했던 Cortex-A57이 아닌 Cortex-A53에서의 Perf/W가 2배 이상으로 벌어지는 것을 보았을 때 20SoC에 면죄부를 주기는 어렵다.
그리고 20SoC 공정에서 양산된 Apple Silicon A8도 매우 낮은 수준의 성능 증가폭을 보여주었다는 사실도 20SoC가 상대적으로 열세였다는 간접적인 증거가 될 수 있다. Apple A6과 A7은 전 세대 대비 CPU, GPU 성능 2배 증가, A9는 전 세대 대비 CPU 성능 1.7배, GPU 성능 1.9배 였지만, 20SoC에서 양산된 Apple A8은 CPU 성능은 전작 대비 25%, GPU 성능은 전작 대비 50% 향상에 그쳤기 때문이다.
- [ 면적 관련 자료 펼치기 · 접기 ]
- ||<tablealign=center><width=50%> ||
다만 셀 크기, 즉 면적 측면에서는 삼성의 20LPE가 TSMC의 20SoC 보다는 덜 미세하다는 사실을 알 수 있다. 20LPM은 CPP 86nm x M2P 64nm로 셀 크기 자체를 20SoC보다 더 미세하고 자사의 14LPE에 준하는 수준으로 줄였지만, 실제로 20LPM 공정은 사용된 사례가 존재하지 않는다. 요약하자면 면적 측면에서는 20LPE > 20SoC > 20LPM > 삼성 14nm 인 셈이다.
3. 16/14 nm
TSMC의 16nm는 16FF, 16FF+와 16FFC, 16FFC+, 그리고 16nm에서 파생된 12FFN과 12FFC, 12FFC+ 공정이 존재하고, 삼성의 14nm 또한 14LPE, 14LPP, 14LPC, 14LPU와 14nm에서 파생된 삼성 11LPP[2]와 글로벌 파운드리의 12LP, 12LP+가 존재한다. 두 회사의 14nm와 16nm간의 비교는 Apple Silicon A9가 14LPE, 16FF 공정으로 혼용 생산이 이뤄지면서 많은 사람들과 IT 웹진들의 관심을 끌었다.- [ iPhone 6s 및 iPhone 6s Plus 내의 삼성 14LPE, TSMC 16FF 쓰로틀링 비교 그래프 펼치기 · 접기 ]
- ||<tablealign=center><width=50%> ||<width=50%> ||
iPhone 6s 및 iPhone 6s Plus 내의 삼성 14LPE, TSMC 16FF 쓰로틀링 비교 그래프
최초로 iPhone 6s와 iPhone 6s Plus가 공개됐을 때 각종 웹진에서는 두 회사에서 생산된 A9 간에 어떠한 차이가 있는지에 대하여 알아보기 위해 여러가지 테스트를 진행했다. 다른 항목에서는 삼성제 A9와 TSMC제 A9간에는 편차가 거의 존재하지 않았지만, Geekbench 3, 즉 CPU를 지속적으로 Full Load를 걸어서 혹사 시킬때 배터리 지속시간이나 성능 유지 측면에서 삼성제 A9가 더 낮은 결과를 보여줬다는 결과들이 다수 공개됐다. 이는 공정의 비교에 쓰이는 3가지 요소인 P / P / A중 첫번째 P인 성능(Performance), 즉 스피드 게인 측면에서 삼성 14LPE가 더 열등하다는 것이 아니냐는 주장이 제기됐다.
좌측의 그래프는 IYD에서 삼성제 / TSMC제 기기를 각각 2개씩 준비하여 Geekbench 3을 지속적으로 구동했을 때 쓰로틀링 특성이 어떠한 지에 대하여 측정한 결과이다. 이 결과를 참고하여 보면 TSMC제의 기기가 고클럭에서 더 유리하다는 사실을 간접적으로 추론할 수 있고, 반대로 우측의 그래프에서는 상대적으로 저클럭으로 구동이 되는 GPU를 지속적으로 혹사시켰을 때 삼성 14LPE가 더 유리하다는 사실을 간접적으로 추론할 수 있었다.
- [ 클럭 특성 비교 펼치기 · 접기 ]
- || ||
이러한 데이터들을 통하여 IYD 측(現 DrMOLA) 에서는 다음 사진과 같이 삼성의 14LPE와 TSMC 16FF간에 윗 그래프에서 보이는 것처럼 각 사의 공정마다 비교 우위를 가지는 클럭 대가 서로 다르다는 결론을 내렸다.
그러나...
- [ 쓰로틀링 비교 그래프 펼치기 · 접기 ]
- ||<tablealign=center><width=50%> ||<width=50%> ||
iPhone SE 내의 삼성 14LPE, TSMC 16FF 쓰로틀링 비교 그래프
우측의 그래프는 좌측의 그래프를 확대한 것이다.
그러나 표본수를 늘려서 비교해 본 결과 이번에는 삼성제 A9가 TSMC제 A9보다 Speed Gain 측면에서 우위를 점한다는 결과가 나오게 되고 각 사의 공정간의 우열 관계는 다시 매우 불명확해지게 됐다. 같은 iPhone 6s 내의 A9는 동일한 조건에서 TSMC가 Speed Gain이 더 높았지만, 같은 iPhone SE 내의 A9는 6S 내의 A9 쓰로틀링 테스트 결과에서 나타난 격차보다 2배 더 큰[3] 격차를 내면서 삼성제 A9가 더 앞섰기 때문이다. 일부 사이트에서는 삼성 14LPE를 폄하하기 위한 목적으로 표본 수가 적었을 때의 테스트 결과를 매직 그래프 수준으로 확대한 해당 그래프 사진 한 장만 다른 곳에 퍼 나르면서 악의적인 여론을 조성했고, IYD(現 DrMOLA) 측에서 표본 수를 늘려서 다시 테스트를 한 결과가 존재한다는 사실은 거의 알려지지 않은 측면이 존재한다.
이 문제에 대하여 Apple의 입장은 두 제조사가 생산한 Apple A9 간의 성능 차이는 없다. 라는 스탠스를 유지하고 있고, 해외 벤치마크 자료들도 삼성제 A9가 쓰로틀링 특성이 나쁘다는 결과와 TSMC제 A9가 쓰로틀링 특성이 나쁘다는 결과가 혼재되어 있다. IYD(現 DrMOLA) 측에서는 테스트 결과를 올리면서
"어쨌든. 여기서 우리는 비로소 A9 AP간의 편차가 제조사 때문이 아닐 수 있겠단 생각을 해 보게 됐습니다. 그러고 보면 해외 벤치마크 자료 중에도, 삼성의 쓰로틀링 특성이 TSMC보다 나쁘단 결론과 그 반대의 결론이 혼재해 있기도 했습니다. 나아가 실은 그 모든 '제조사간의 편차'로 여겨졌던 것들이, 각 제조사 내부에서도 일상적으로 발생하는 '개체간의 편차'가 아니었을까 하는 가정을 세워볼 수도 있게 됐습니다. 이것을 정확히 검증하려면 샘플을 적어도 100대, 1000대 정도는 확보한 후 일일이 테스트를 해 봐야겠습니다만 그럴 여건이 아니니, 일단은 '이럴 수도 있다'는 가설로만 여겨 주시기 바랍니다."
라는 말을 덧붙였다.- [ 삼성 파운드리 14nm와 TSMC 16nm의 면적 관련 데이터 펼치기 · 접기 ]
- ||<tablealign=center><width=50%> ||<width=50%> ||
14LPE와 16FF간의 CPP 및 M2P와 셀 사이즈 비교
면적과 밀도(Area) 측면에서는 삼성 14LPE가 TSMC의 16FF 공정보다 더 미세하다. TSMC의 16FF는 자사의 20nm 공정과 동일한 셀 크기를 가진다. 실질적인 공정미세화가 이뤄진 것은 아니지만 FinFET 적용으로 인한 성능, 전력 개선때문에 16nm라는 명칭이 붙은 것으로 보인다. 인텔이 이걸 근거로 자사의 14nm가 진짜 14nm라고 주장하면서 그 14nm를 7년째 우려먹을 예정이다. 그에 비해 삼성의 14LPE는 20LPE보다 유의미한 면적 감소를 이뤄냈다. 수치 상으로 드러나는 CPP는 삼성이 더 미세한 모습을 보여주고 있고, 삼성의 14nm 공정은 TSMC와는 다르게 SDB가 적용되어 있기 때문에 실질적인 밀도 차이는 훨씬 크다. 같은 Apple A9를 생산하는데 삼성제 A9의 면적이 96mm² 이고, TSMC의 A9의 면적이 104mm²이라서 밀도가 그리 크게 차이나지 않는다고 생각할 수도 있겠지만, 우측 상단의 사진에서 볼 수 있는 것처럼 삼성제 A9는 9T 셀, TSMC의 A9는 7.5T 셀을 사용하고 있다는 점을 참고해야 한다.
결론적으로 삼성의 14nm 공정은 9T 셀을 쓰고도 TSMC와 비교하여 면적 측면에서 소폭 우위를 가진다. 는 결론에 도달할 수도 있고, 역으로 삼성의 14nm 공정은 9T 셀을 써야 TSMC 16nm 7.5T 셀과 스피드 게인 측면에서 그나마 비빌 수 있다. 라는 결론에 도달할 수도 있다.
본격적으로 제품화가 이뤄지기 시작한 시기는 삼성의 14LPE가 TSMC의 16FF보다 반 년 빠르다. 삼성의 14LPE는 엑시노스 7420에 최초로 적용됐고, TSMC의 16FF는 삼성의 14LPE와 14LPP와 시기적으로 중간 시점에 등장한 Apple Silicon A9에 최초로 적용됐다.
4. 10 nm
삼성전자는 10LPE, 10LPP, 10LPU 등으로 구성된 10nm 공정과 해당 공정에서 하프노드 수준의 개선을 이룬 8LPP, 8LPU로 구성된 8nm 공정 라인업을 보유하고 있다. TSMC는 10nm 세대에 CLN10FF(약칭 10FF) 이라는 단 한가지의 공정만 내놓고 최대한 빠르게 ArF 이머젼 쿼드 패터닝 방식을 통한 N7 공정으로 넘어갔다. 인텔의 10nm는 명칭 자체는 10nm긴 하지만 종합적인 면에서 삼성/TSMC의 7nm에 준하는 수준의 공정이다. 인텔이 12세대 엘더 레이크부터 사용할 인텔 10nm Enhanced SuperFin의 이름을 Intel 7으로 명명함에 따라 앞으로는 숫자가 동일해질 전망이다.- [ SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터 펼치기 · 접기 ]
- ||<tablealign=center> ||
SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터
해당 표는 Anandtech에서 측정한 모바일 CPU들의 SPEC 2006 측정 자료이다. 표 좌측의 그래프는 CPU가 소모하는 전력, 그리고 전력에 시간을 곱한 총 소모 에너지 양(J)에 SPEC 2006 테스트 결과 점수를 나눠서 도출된 효율 상수이고, 우측의 그래프는 SPEC 2006을 바탕으로 CPU의 성능을 표기한 자료이다. 최대한 수평적인 비교를 위하여 동일한 Cortex-A73이 동일한 클럭(2.3 GHz ~ 2.4 GHz)으로 작동할 때의 성능(Perf)과 전력(Power), 그리고 효율 상수(J/SPECSpeed)을 비교해 봐야 한다. 아키텍챠가 동일하지 않다면 비교의 의미가 없고, 스윗 스팟을 넘기면 클럭의 차이에 따라서 효율도 기하급수적으로 변하기 때문이다.
표에서 필요한 데이터를 정리하여 보면 다음과 같다.
AP 명칭 / CPU 아키텍처 | 생산 공정 | 정수 성능 / 전력 / 효율 상수(J/SPECSpeed) | 부동소숫점 성능 / 전력 / 효율 상수(J/SPECSpeed) |
퀄컴 스냅드래곤 835 / Cortex-A73 (2.46 GHz) | 삼성 10nm LPE | 13.59 / 1.46W / 981 | 16.63 / 1.69W / 461 |
하이실리콘 기린 970 / Cortex-A73 (2.36 GHz) | TSMC CLN10FF | 13.00 / 1.38W / 1019 | 16.12 / 1.72W / 501 |
클럭이 상승하면 전압도 상승하기 때문에 전력 소모량은 기하급수적으로 상승하게 된다. 따라서 같은 CPU(Cortex-A73)에 비슷한 클럭(2.3~2.4 GHz)에서의 전력, 그리고 효율 상수를 비교해 보았을 때, N10 공정과 10LPE 공정은 오차 범위 내 동급의 전력 효율을 보여준다는 사실을 알 수 있다. 두 공정에서 생산된 CPU는 모두 공통적으로 정수 연산, 부동소숫점 연산시 거의 비슷한 양의 전력을 소모한다는 것이 드러났기 때문이다.
면적 측면에서는 삼성 10LPE보다 TSMC 10FF가 소폭 미세하고, CPP와 M2P를 통해 계산이 이뤄지는 ASML Standard Node 기준으로도 TSMC측의 10FF가 더 미세하다. 그리고, 삼성 10LPP는 10FF보다 소폭 더 미세하다. 그러나 10LPE / 10FF / 10LPP의 트랜지스터 밀도는 유의미한 수준의 차이를 가지지는 않는다.
One thing that I also noticed, is that in very low idle loads where there’s just some light activity on the A55 cores, the Exynos 9820 variant actually uses less power than the Snapdragon unit. The figures we’re talking about here are 20-30mW, but could possibly grow to bigger values at slightly more moderate loads. It’s possible that Qualcomm has more static leakage to deal with on the 7nm process than Samsung on 8nm, one thing that I’ve come to hear about the TSMC 7nm node.
동일한 ARM Cortex-A55로 비교해 본 결과 10nm 공정의 파생 공정인 8LPP는 7FF와 비교했을때 밀도, Full Load 시의 효율 면에서 종합적으로 열세라고 평가되지만, Idle 시의 정적 누설전력이 약 20~30mW 더 낮다는 장점을 가지고 있다.
삼성의 8LPP와 TSMC의 N7 라인업은 이름과는 달리 밀도 차이가 꽤 크지만, N7 라인업 중 N7 HPC 라인업은 8LPP와 밀도 측면에서 비슷한 수준인 것으로 평가되고 있다. 인텔의 10nm 공정 또한 HD 셀에서 HP, UHP 셀로 고성능화가 이뤄지면 이에 따른 Trade-off로 인하여 밀도 측면에서 희생이 이뤄지고, UHP 셀의 경우에는 N7 HPC와 밀도 측면에서 비슷한 수준인 것을 볼 수 있다.
시기 면에서는 본격적으로 10nm 탑재 제품의 상용화가 이뤄진 시기는 삼성 10nm가 반년 더 빠르다. 삼성 10LPE는 2016년 10월에 양산을 시작하여 2017년 4월에 출시된 갤럭시 S8의 삼성 엑시노스 8895 & 퀄컴 스냅드래곤 835를 양산하는데 사용됐고, TSMC의 N10 공정은 2017년 중반기에 출시된 아이패드 프로 2세대의 Apple A10X와 2017년 하반기에 출시된 아이폰 X의 Apple A11을 양산하는데 사용됐다.
인텔 10nm 공정 면적 & 밀도 세부 데이터 |
한편 인텔의 10nm 공정은 특이하게도 자사의 이전 세대 공정인 14nm와 비교할 수 있는 데이터가 존재한다. Anandtech 측에서는 14nm 공정에 생산된 카비 레이크 Core i3-8130U와 10nm 공정에서 생산된 캐논 레이크 Core i3-8121U 간의 비교 리뷰를 진행했다. 두 CPU 모두 같은 스카이레이크 아키텍처에 동일한 수준의 TDP, 베이스 클럭을 가지고 있기 때문에 비교할 수 있는 조건이 잘 갖춰진 셈이다.
인텔 10nm vs 14nm 비교 자료 |
좌측 상단과 우측 상단의 그래프를 보면, 14nm 카비 레이크는 AVX2 테스트 중에 2 GHz 후반대의 클럭을 유지했고, 10nm 캐논 레이크는 AVX2 테스트 중에 2 GHz 초반대의 클럭을 유지하는 모습을 보여주었다. 물론 클럭 차이만큼 전력 소모도 차이가 있었는데 카비 레이크는 클럭이 유지되는 구간동안 평균 15.0W, 캐논 레이크는 12.6W의 전력을 소모했다. 하지만 카비 레이크 CPU가 전체 테스트를 더 빨리 종결했고, 그로 인하여 카비 레이크 CPU가 소모한 전력이 오히려 더 적다는 계산이 나오게 됐다.
Core i3-8121U (CNL) consumes 867 mWh
Core i3-8130U (KBL) consumes 768 mWh
Core i3-8130U (KBL) consumes 768 mWh
한편 비교 자료의 아랫 그래프에는 CPU 내의 언코어 부분을 제하고, 두 CPU 모두 2.2 GHz 클럭을 유지할 때의 전력 소모가 나왔는데 10nm 공정인 캐논 레이크는 10W를 소모하는데 반해, 14nm 공정인 카비 레이크는 단 7W만 소모한다는 결과가 도출이 됐다. 캐논 레이크를 양산하는데 쓰인 공정이 10nm HD 공정인데도 2.2GHz 구간에 14nm 공정과 비교해서 효율면에서 역전당하는 것을 보면 인텔의 10nm 공정과 소위 말하는 '하이퍼 스케일링' 이라는 전략이 너무 무모했다는 목소리가 나오는 상황.
좌측은 타사 CPU와 인텔 아이스 레이크 CPU의 전력효율 비교 그래프 우측은 인텔의 10nm SuperFin(10SF) |
최근 출시된 Sunny Cove CPU는 인텔 10nm 공정의 고질병을 그래도 어느정도 해소한 것으로 보인다. 아이스 레이크-U/Y는 캐논 레이크가 사용한 10nm 공정에서 밀도를 희생하여 Speed Gain을 얻은 10nm+ 공정이고, 해당 공정과 신 아키텍처를 통하여 AMD가 사용한 TSMC의 7nm HPC 공정과 유사한 전력효율을 가진다는 것을 알 수 있다. 그리고 인텔은 더 이상
시기 면에서는 본격적으로 인텔 10nm 탑재 제품의 상용화가 이뤄진 시기는 2018년 초이다. 그러나 2018년 초에 출시된 캐논 레이크는 단 2개의 코어만 활성화 할 수 있고, 내장 그래픽(IGP)은 아예 비활성화가 되어있고, 성능과 전력소모 측면에서도 도저히 정상적인 수율로 양산됐다고 보기 어려운 하자품이다. 그 이후 타사의 7nm 공정에 비견할 수 있는 아이스 레이크가 최초로 상용화 된 시기는 2019년 하반기이다.
5. 7 nm
- [ SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터 펼치기 · 접기 ]
- ||<tablealign=center> ||
SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터
TSMC는 자사의 7nm 공정에 세대별로 N7(7FF), N7P(7FFP), N7+(7FF+) 라는 명칭을 부여했고, 삼성의 7nm 공정은 SF7E, SF7이 있다[5].
해당 표는 Anandtech에서 측정한 모바일 CPU들의 SPEC 2006 측정 자료이다. 표 좌측의 그래프는 CPU가 소모하는 전력, 그리고 전력에 시간을 곱한 총 소모 에너지 양을 J 단위로 표기한 자료이고, 우측의 그래프는 CPU의 성능을 표기한 자료이다. 최대한 수평적인 비교를 위하여 동일한 Cortex-A76이 동일한 클럭(2.4 GHz ~ 2.6 GHz)으로 작동할 때의 성능(Perf)과 전력(Power), 그리고 총 소모 에너지(J)을 비교해 봐야 한다. 테스트를 진행하는 동안 총 소모 에너지의 양은 곧 전력 대비 성능의 역수가 되기 때문에 총 소모 에너지를 통하여 전력 대비 성능을 유추할 수 있다.
표에서 필요한 데이터를 정리하여 보면 다음과 같다.
AP 명칭 / CPU 아키텍처 | 생산 공정 | 정수 성능 / 전력 / 총 소모 에너지(J) | 부동소숫점 성능 / 전력 / 총 소모 에너지(J) |
삼성 엑시노스 990 / Cortex-A76 (2.5 GHz) | 7nm SF7 | 21.69 / 1.65W / 총 9472J 소모 | 31.26 / 2.01W / 총 5014J 소모 |
퀄컴 스냅드래곤 765G / Cortex-A76 (2.4 GHz) | 21.81 / 1.55W / 총 8877J 소모 | 30.00 / 1.98W / 총 4982J 소모 | |
퀄컴 스냅드래곤 855 (미들 클러스터) / Cortex-A76 (2.42 GHz) | CLN7FF | 22.41 / 1.53W / 총 8576J 소모 | 1.93 / 2.03W / 총 4755J 소모 |
하이실리콘 기린 980 / Cortex-A76 (2.6 GHz) | 25.74 / 1.95W / 총 9480J 소모 | 33.97 / 2.45W / 총 5337J 소모 |
클럭이 상승하면 전압도 상승하기 때문에 전력 소모량은 기하급수적으로 상승하게 된다. 따라서 같은 CPU(Cortex-A76)에 비슷한 클럭(2GHz 중반대)에서의 전력, 그리고 에너지 소모량을 비교해 보았을 때, N7 공정과 SF7 공정은 오차 범위 내 동급의 전력 효율을 보여준다는 사실을 알 수 있다. 두 공정에서 생산된 CPU는 모두 공통적으로 정수 연산시 9000J 안밖의 에너지를 소모하고 부동소숫점 연산시 5000J의 에너지를 소모하고 있다.
AP 명칭 / CPU 아키텍처 | 생산 공정 | 정수 성능 / 전력 / 총 소모 에너지(J) | 부동소숫점 성능 / 전력 / 총 소모 에너지(J) |
하이실리콘 기린 990 4G / Cortex-A76 (2.86 GHz) | CLN7FF+ | 27.85 / 1.82W / 총 8145J 소모 | 38.75 / 2.38W / 총 4597J 소모 |
하이실리콘 기린 990 5G / Cortex-A76 (2.86 GHz) | 27.68 / 1.56W / 총 7051J 소모 | 38.72 / 2.09W / 총 4006J 소모 |
한편 TSMC N7+ 공정에서 양산이 된 기린 990 5G는 정수 연산 테스트에서 7000J, 부동소숫점 테스트에서는 단 4000J을 소모했다. 기린 990 5G 내의 Cortex-A76은 2.86 GHz로 작동하면서 N7이나 SF7 공정에 양산된 Cortex-A76이 2.4 GHz로 작동할 때와 동일한 전력(정수 연산시 1.5W, 부동소숫점 2.0W대)을 소모한다. 이는 TSMC의 N7이 ArF 이머젼 방식의 쿼드 패터닝 공정을 거치는데에 반해 N7+는 EUV 공정에서 양산됐기 때문이다. 다만 N7+의 양산은 월 2만장 수준으로 한정되어 있는 것으로 보이고, 애플의 독점적 공급에 필요한 양산 수량은 월 6만장~7만장이기 때문에 이는 N7+가 아닌 N7P 공정을 통하여 Apple Silicon A13의 양산이 진행중이다. 한편 삼성의 7nm SF7 또한 'EUV' 공정이다. EUV(극자외선) 노광장비를 가지고 반도체웨이퍼에 설계를 하는 작업. 현재 네덜란드 ASML이 독점 생산하고 광학렌즈는 독일 자이스가 독점하고 있다. 그런데 위의 표를 보면 고클럭에서 N7+보다 10~20% 밀리면서 상당히 약한 모습을 보여주는데, 이는 공정 최적화가 덜 됐기 때문이다. 실제로 공정 최적화 과정을 거쳐서 퀄컴 스냅드래곤 768G가 출시됐고, 이 768G의 CPU 클럭은 2.8 GHz 까지 상승했다.
IDLE 및 저클럭에서의 CPU 전력소모 그래프 |
좌측의 사진은 두 회사의 A9 프로세서 간의 차이를 나타내는 그래프이지만 7nm 에서도 동일하게 적용할 수 있다. 우측의 사진은 AP만 다른 동일한 기종의 스마트폰을 비행기 모드로 설정하여 통신칩으로 인한 편차를 제거하고, 화면을 꺼서 디스플레이로 인한 편차를 제거한 상태에서 IDLE 상태의 AP 전력소모를 비교한 결과이다. 이 결과와 위의 표 내의 자료를 참고하면, 2 GHz 후반대의 클럭에서는 TSMC의 N7P, N7+가 삼성전자의 SF7 대비 상대적인 우위를 가지고 있다는 사실이 간접적으로 드러났지만, 반대로 1 GHz 이하의 저클럭에서는 삼성전자의 SF7가 비교 우위를 점하고 있다는 것을 알 수 있다.
TSMC와 삼성의 7nm 셀 크기 비교 |
한편 면적(Area) 측면에서는 삼성의 SF7이 퀄컴 스냅드래곤 855를 양산하는데 쓰인 TSMC의 N7보다 약 5% 더 미세하다고 퀄컴 측에서 2020년 VLSI 심포지엄에서 직접 발표한 적이 있다. 그리고 SRAM 셀의 크기는 삼성의 7LPP가 가장 작은데 이 또한 삼성 파운드리에서 양산된 칩이 작은 면적을 가질 수 있는데 일조한다.
반도체 공정간의 밀도 비교 예측자료를 내놓는 Semiwiki 측에서는 삼성의 SF7의 CPP가 54nm가 아닌 57nm라고 예측하여 이로 인하여 TSMC의 7FF가 트랜지스터 밀도 측면에서 SF7를 앞설 것이다 라고 예측을 한 적이 있었지만, 실제 SF7의 밀도는 90 MTr/mm2대가 아닌 101.6 MTr/mm2로 HD 셀 기준 7FF/7FFP 보다는 소폭 높고 7FF+(EUV) 보다는 소폭 낮은 수준이다. SF7의 CPP가 54nm 라는 것은 테크인사이츠의 실측치에도 명백히 드러나 있는 사실이다.
시기적인 측면에서는 TSMC의 7nm 공정이 18년 하반기에 쓰이기 시작한 Apple A12와 19년 상반기에 쓰이기 시작한 855에 적용됐지만, 삼성은 그보다 1년 늦은 19년 하반기의 엑시노스 9825를 양산하는데에 활용됐다.
SMIC는 2022년경에 DUV를 이용한 7nm 공정 개발에 성공했으며,[6] 2023년 8월에 화웨이가 자체 설계한 기린 9000S를 통해 제품화되었다. 다만 기린 9000S가 거의 대부분 독자 아키텍처를 사용중인 탓에 직접적인 공정의 성능 비교는 어려운 상황이다.
6. 5 nm
- [ 삼성과 TSMC의 5nm 공정 비교 펼치기 · 접기 ]
- ||<tablealign=center> ||
TSMC와 삼성은 명칭은 같은 5nm 공정으로 붙였지만, 각 사별로 특성들이 판이하다.
삼성의 5nm 공정은 트랜지스터 밀도의 1.33x 향상, 그리고 면적 감소는 25% 이다. 그에 반해 TSMC는 5nm 공정에서 트랜지스터 밀도의 1.8x 향상, 그리고 45%의 면적 감소라는 파격적인 목표를 제시하고 있다. 따라서 삼성의 5nm는 TSMC의 5nm에 비해 면적 & 밀도 측면에서 약 30% 정도 차이가 난다고 볼 수 있고, 삼성의 5nm는 엄밀히 따지면 풀 노드가 아닌 하프 노드라고 볼 수있다. 그러나 진짜 하프노드인 TSMC N6이나 6nm SF6 공정과 비교할 만한 수준이라는 의미는 아니다. CPP와 메탈 피치, 그리고 ASML Standard Node 기준으로 삼성의 7nm와 5nm는 서로 동일하지만, 25% 면적 감소를 위해 SDB 적용, 트랙 수를 5T로 줄이고, EUV 적용 레이어 수를 훨씬 늘리는 등의 다른 기술들이 적용됐기 때문이다. TSMC도 20nm에서 16nm로 넘어갈 때 ASML Standard Node 기준으로는 두 공정이 서로 동일한 공정이었으나, 소자 측면에서 FinFET을 적용하고, 이를 통하여 소비전력을 획기적으로 낮춘 사례와 일치한다. 하프 노드긴 하지만 풀 노드에 준하는 개선이 이뤄진 공정이라고 판단해도 좋다.
삼성은 이러한 격차를 줄이기 위해 SF5E의 후속 공정인 SF5[7]와 SF4E[8], SF4[9]를 준비하고 있고,
양산 시기 면에서는, TSMC의 5nm 공정은 첫 제품이 Apple Silicon A14칩이기 때문에 2020년 하반기부터 실제 제품이 출하가 됐고, 삼성의 5nm 공정은 첫 제품이 엑시노스 1080이기 때문에 역시 동일한 2020년 하반기부터 실제 제품이 출하가 됐다. 물론 같은 2020년 하반기지만 실제 공개 및 출하 시점에서 삼성의 5nm 공정은 약 2개월 뒤쳐졌다. 물론 이는 고객사의 제품 출시 일정에 따라 달라진 것이기 때문에 본질적으로는 같은 시기라고 보는 것이 맞다.
- [ SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터 펼치기 · 접기 ]
- ||<tablealign=center> ||
SPEC 2006 기준 CPU 정수 성능과 FP 연산 능력 및 효율 데이터
해당 표는 Anandtech에서 측정한 모바일 CPU들의 SPEC 2006 측정 자료이다. 표 좌측의 그래프는 CPU가 소모하는 전력, 그리고 전력에 시간을 곱한 총 소모 에너지 양을 J 단위로 표기한 자료이고, 우측의 그래프는 CPU의 성능을 표기한 자료이다. 최대한 수평적인 비교를 위하여 동일한 Cortex-A77이 동일한 클럭(3.1 GHz)으로 작동할 때의 성능(Perf)과 전력(Power), 그리고 총 소모 에너지(J)을 비교해 봐야 한다. 테스트를 진행하는 동안 총 소모 에너지의 양은 곧 전력 대비 성능의 역수가 되기 때문에 총 소모 에너지를 통하여 전력 대비 성능을 유추할 수 있다.
표에서 필요한 데이터를 정리하여 보면 다음과 같다.
AP 명칭 / CPU 아키텍처 | 생산 공정 | 정수 성능 / 전력 / 총 소모 에너지(J) | 부동소숫점 성능 / 전력 / 총 소모 에너지(J) |
하이실리콘 기린 9000 / Cortex-A77 (3.13 GHz) | CLN5FF | 37.77 / 2.34W / 총 7754J 소모 | 50.94 / 2.83W / 총 4115J 소모 |
퀄컴 스냅드래곤 865+ / Cortex-A77 (3.09 GHz) | CLN7FFP | 36.00 / 2.59W / 총 8955J 소모 | 50.17 / 3.16W / 총 4648J 소모 |
동일한 조건 하에서 TSMC N7P와 TSMC N5는 동일 성능, 동일 아키텍처, 동일 클럭 하에서 N5가 N7P와 비교시 평균적으로 전력 소모량이 12% 더 낮았다. 이는 TSMC가 공개한 수치와는 차이가 좀 있지만, 원래 보통 삼성이나 TSMC와 같은 기업들이 발표하는 Perf/Power/Area 에 대한 정보는 최적의 구간 기준 이라는 점을 항상 명심해야 한다.
- [ SPEC 2006 기준 Cortex-A55 @ 1.80 GHz 구동시 전력소모 펼치기 · 접기 ]
- ||<tablealign=center> ||
SPEC 2006 기준 Cortex-A55 @ 1.80 GHz 구동시 전력소모
해당 표는 Anandtech에서 측정한 모바일 CPU의 SPEC 2006 전력 측정 자료이다. 최대한 수평적인 비교를 위하여 동일한 Cortex-A55가 동일한 클럭(1.80 GHz)으로 작동할 때의 전력(Power)을 비교해 봐야 한다. 보통 Cortex-A53이나 Cortex-A55는 공정 자체의 PPA를 검증하는데 자주 사용되기 때문에 본 테스트를 통하여 공정 자체의 전력 대비 성능을 유추할 수 있다.
표에서 필요한 데이터를 정리하여 보면 다음과 같다.
AP 명칭 / CPU 아키텍처 | 생산 공정 | 전력(mW) | 전력 대비 성능(%) |
퀄컴 스냅드래곤 888 / Cortex-A55 (1.80 GHz) | Samsung SF5E | 304 | +1.6% |
퀄컴 스냅드래곤 865 / Cortex-A55 (1.80 GHz) | TSMC N7P | 309 | - |
한편 TSMC N7P와 삼성 SF5E는 동일 성능, 동일 아키텍처, 동일 클럭 하에서 비교시 SF5E가 Power 측면에서 1~2% 앞서는 수준으로 사실상 오차범위 내에서 동급이었던 것으로 판단이 된다. SF7 = N7 < SF5E = N7P < N5 라는 공식이 성립하는 것이다. 물론 삼성의 5nm 공정이 TSMC의 그것보다 기술적으로 10% 더 낮은 수준인 것은 사실이지만, 일부 중화권 미디어에서는 삼성의 SF5E가 TSMC의 N7P보다도 훨씬 낮은 수준의 효율을 가진다고 호도하는 경우도 많은데 이 또한 그대로 수용해서는 안된다. 중화권 사이트의 측정 자료는 대부분 실측 자료가 아니라 어플리케이션으로 예측한 자료이기 때문에 전력소모 측정 면에서 정확하다고 할 수 없기 때문이다. 본 문서에서 Anandtech 사이트의 측정 자료만 올리는 것도 그 때문이다.
2021년 1월 TSMC 7나노 공정으로 생산된 스냅드래곤 870이 발표됐는데, 삼성의 SF5E 공정에서 생산된 퀄컴의 플래그십 AP인 스냅드래곤 888칩셋의 발열문제로 인해, 올해는 해당 라인업이 이목을 끌었다. 다만 일각에서 나오는 삼성 SF5E에서 생산된 888의 발열 문제 때문에 N7P에서 생산됐다는 식의 주장은 어폐가 있으므로 걸러들어야 할 필요가 있다. 비교적 덜 알려져서 그런 것이지, 스냅드래곤의 8(X+1)0 라인은 8X5, 8X5+의 리비젼격 AP로 항상 존재해왔던 준플래그십 라인업이다. 애초에 스냅드래곤 870은 패스트커넥트 6900이 6800으로 다운그레이드 된 점을 제외하면 클럭 빼고는 차이가 없는 물리적으로 완전히 동일한 프로세서이며, 따라서 원래 TSMC의 N7P로 설계된 칩을 굳이 삼성 파운드리의 공정으로 바꿔야 할 이유가 존재하지 않는다. 스냅드래곤 860의 경우도 마찬가지로, 855를 기반으로 오버클럭이 된 물리적으로 완전히 동일한 프로세서이기 때문에 N7 공정에서 생산되는 것이다. 그런데 이를 두고 860이 N7에서 생산된다고 N7P의 공정에 문제가 있다는 주장은 어불성설이다.
7. 4 nm
2022년 삼성 갤럭시 GOS 성능 조작 사건이 알려지고 삼성 파운드리의 4nm 실제 수율이 밝혀졌다. 삼성 파운드리는 30%대의 매우 낮은 수율을 보였으며, 이 사실은여러 기사를 통해 일반인들에게도 널리 알려지게 되었다. 단순 공정 비교만으로는 성능 비교가 불가능한 상태가 되어 사실상 TSMC의 4nm가 삼성 파운드리의 4nm를 압도적으로 눌렀다. 삼성 4nm는 2023년 이후로는 다소 안정된 모습을 보여주고 있지만, 아직도 전력과 수율 측면에서 TSMC와의 격차가 커서 이렇다 할 만한 대형 수주는 자사 S.LSI 사업부를 제외하면 결국 받지 못했다.한편 인텔은 기존에는 7nm라고 하던 공정을 Intel 4라는 이름으로 변경했고 공식적으로 2022년 생산 준비를 마치고 2023년부터 제품을 출하할 계획이라고 한다. Intel 4는 계획에 따르면 약 200 MTr/mm2에 달하는 트랜지스터 밀도를 가질 것이라고 한다. 하지만 200 MTr/mm2는커녕 삼성 4nm 공정의 트랜지스터 밀도보다 약 10% 더 성긴 수준(123.4 MTr/mm2)의 밀도를 가지게 되었다. 거기에다가 인텔4의 대규모 양산은 모두 목표시기를 놓쳤고, 수율마저도 예상한 것 만큼 나오지 않아 Intel 4로 양산 예정이었던 모바일 고전력/데스크탑용 메테오레이크는 취소,[11] 모바일 중저전력용 메테오레이크의 CPU 타일만 생산하게 되었다. 그 메테오레이크의 CPU 역시 전성비에서 기대했던 것 보다는 못미치는 모습을 보여주고 고전력에서의 성능은 오히려 후퇴해버리는 등 힘겨운 모습을 보여주는 중.
8. 3 nm
- [ 삼성과 TSMC의 3nm 공정 비교 펼치기 · 접기 ]
- ||<tablealign=center><nopad><width=50%> ||<nopad><width=50%> ||
삼성 SF3E, SF3 공정 기술 사항 <bgcolor=#fff> TSMC N3 공정 기술 사항(좌측이 구 자료 / 우측이 최근 자료)
TSMC와 삼성이 5nm 공정에서 걷는 길이 달랐고, 3nm 공정에서도 역시 서로 다른 길을 걸을 것으로 보인다.
면적과 밀도 측면에서 양 사에서 언론에 공개한 내용에 따르면 삼성의 3nm 공정은 2019년에는 SF7와 비교해서 45%의 면적 감소가 이뤄진다고 했으나 그 이후 2020년에 보도된 자료에 따르면, SF5E와 비교하여 면적이 35% 감소한다. 당연히 이쪽이 훨씬 더 미세하다. 이로 미루어 봤을때 밀도는 약 1.5배 증가할 것이다.
그리고 TSMC의 3nm 공정은 소자 측면에서 FinFET을 그대로 유지하면서 2nm 세대부터 GAAFET을 도입할 것이지만 삼성은 3nm SF3E/SF3에서 조기에 GAAFET(MBCFET)을 적용할 것이다. 다만 GAAFET 소자의 조기 도입이 과연 득이 될지 EUV 조기 도입때처럼 독이 될지는 좀 더 지켜봐야 알 수 있는 일이다.
최근 자료에서는 TSMC N3의 밀도 향상치가 더욱 공격적으로 제시되어 있다. TSMC 공식 소개 페이지#에서는 N3이 N5 대비 밀도 최대 70% 증가, 속도 최대 15% 증가, 전력 최대 30% 감소될 수 있다고 기재되어 있다. TSMC의 N3이 N5에 이어 또 한번 1.7배 수준의 밀도 향상을 이뤄낸다면 GAAFET을 포기하는 대신 1세대에 준하는 수준의 밀도 차이가 날 것이다. 정황상으로는 최근 자료가 더욱 타당한 것으로 보인다.
2022년 삼성전자가 6월당시 양산을 시작, 수율을 올리고 있을때 TSMC가 8월 당시 80% 이상의 수율을 보여준다던 발표[12]와는 상반되게 3분기 양산에 실패, 양산시기를 4분기 후반으로 미루며 삼성전자에게는 경쟁력을 높일 기회가 주어졌다.
삼성과 TSMC의 3nm 칩셋 실제 밀도 비교(표 1), 삼성 SF3과 TSMC N5, N4간의 Logic 밀도 비교(표 2)[13] |
공정 세대 | Logic 밀도 향상폭 | SRAM 밀도 향상폭 | Analog 밀도 향상폭 | 칩 전체 밀도 향상폭 |
N5(vs. N7) | 1.8x | 1.35x | 1.2x | (50% logic, 30% SRAM, and 20% analog 기준) 1.545x (실제 칩 기준)1.6x[14] |
N3B(vs. N5) | 1.7x | 1.05x | ? | (A17 Pro 기준)1.38x[15] (M3 Max 기준)1.48x[16] |
N3E(vs. N5) | 1.6x | 1.0x | ? | (50% logic, 30% SRAM, and 20% analog 기준) 1.3x (실제 칩 기준)1.36x[17] |
2023년 9월, Apple A17 Pro가 등장하며 TSMC 3nm 공정이 그 모습을 드러내었다. N3B에서 생산된 A17 Pro의 트렌지스터 밀도는 약 183MTr/mm2으로, N5에서 생산된 M1의 133MTr/mm2 대비 1.37배의 밀도증가폭이다. A12 vs. M1을 비교했을때 N5 공정으로 약 1.6배 가량의 실제 밀도증가폭을 달성한 것과 비교하면 로직 트랜지스터 밀도 향상 목표치와 실제 밀도 향상간의 폭이 더 커졌다는 평을 듣고 있다.
이러한 현상에 대한 이유는 AP에 Logic Cell만 들어가는 것이 아니라 SRAM도 쓰이기 때문이며, 칩 면적중 상당한 비율을 차지하는 Combination Logic에서 Standard Cell 면적을 줄이는데 성공했다고 하더라도 SRAM의 면적이 줄어들지 않고 그대로라면 실제 밀도 목표치는 Logic 밀도 향상치와 SRAM 밀도 향상치 사이의 어딘가가 될 수밖에 없기 때문이다.[18]
TSMC의 자료에 따르면 N5 공정은 N7 공정 대비 로직 밀도 최대 1.8배 향상, SRAM 밀도 최대 1.35배 향상, 아날로그 밀도 최대 1.2배 향상된다고 밝혔으나 N3 공정부터는 로직 밀도와 비교시 SRAM 밀도나 아날로그 밀도의 향상폭이 크게 둔화된 상황이다. N3B 공정은 N5 공정 대비 로직 밀도 최대 1.7배 향상, SRAM 밀도 최대 1.05배 향상(0.021µm² vs 0.0199µm²)된 것에 불과하다. N3E에서는 N3B와 비교시 밀도를 잠시 낮추고 N3B 대비 성능과 전력효율을 높이는 것에 주안점을 두었기 때문에 로직 밀도는 1.6배 늘어나지만, SRAM Cell 면적은 0.021µm² 로, N5와 동일하다.
때문에 TSMC에서 제시한 또 다른 자료를 보면 N3E 공정을 기준으로 PnR 이후 50% logic, 30% SRAM, and 20% analog 비중으로 혼합되어 있다고 가정시 실제 밀도 향상치는 1.3x가 될 수밖에 없다고 밝혔으며, 이는 애플 M4의 실제 밀도인 180MTr/mm2와 상당히 일치한다. 이로 인한 반사효과로 삼성 파운드리의 SF3 공정이 밀도 측면에서 TSMC를 다시 따라잡는 기회가 되었다. 엑시노스 W1000의 트랜지스터 밀도는 189.8 MTr/mm2로, 드디어 실제품 트랜지스터 밀도에서 TSMC N3E (180.8 MTr/mm2, Apple M4)보다 높고 TSMC N3B와 오차범위 내 동급이 되었다.#
TSMC의 N3 계열 공정 로드맵을 참고하면, N3P[19]에서 N3B의 밀도를 다시 회복할 예정이라고 한다. 3nm 공정 중 고성능 고전력 특화 공정인 N3X는 누설전류가 폭증하는걸 감수하며 FinFET의 한계치 수준까지 Speed를 올릴 것으로 예측이 되고 있다.
한편 인텔 3 공정은 2024년 6월 4일 시에라 포레스트 CPU로 출시되었다. 인텔에서 공개한 정보에 따르면 밀도는 인텔 4 공정 대비 11% 향상으로 숫자만 3일뿐 실제로는 거의 삼성의 4nm와 비슷한 밀도를 보여준다. HPC용 공정은 밀도가 낮은 편이라고는 하나[20]은 거의 삼성의 4nm가 이미 TSMC 4nm 대비 밀도가 상당히 낮은 것을 고려하면 인텔 기술력의 현 주소가 여실히 드러났다고 볼 수 밖에 없다. 그러나 이후 9월 24일 인텔은 그레나이트 레피즈를 출시하였는데 다이사이즈가 무려 개당 500mm^2에 달하는 수준으로 이 칩의 공급에 문제가 생기지 않는다면 인텔은 intel 3의 수율을 상당한 수준으로 잡았다고 볼 수 있으며 비록 한세대 전의 칩이지만 Zen 4 제노아와 비슷한 전성비를 보인다는 점에서 N4수준의 PP를 보인다고 할 수 있다. #
2024년 7월 삼성전자의 2세대 3nm 공정으로 생산된 첫 칩인 엑시노스 W1000이 공개되었다. 상단의 표 1을 참고하여 로직 + SRAM + Analog를 모두 합한 칩 전체의 트랜지스터 밀도는 기존 SF5, SF4 계열 대비 큰 향상을 이뤄내었고, TSMC의 N3B 수준의 밀도를 가진다고 평가받고 있다. 상단의 표 2를 참고하여 로직 밀도에 한하여 비교를 하더라도, TSMC N5와 비교하여 같은 Cortex-A78에 대해 1.8배의 로직 밀도 향상[21]을 이뤄냈으며, 인텔 3 공정과는 다르게 밀도 측면에서 풀노드 급의 향상을 이뤘다는 장점이 드러나게 되었다. 그러나 엑시노스 W1000의 다이 사이즈는 17.67mm² 밖에 되지 않고, 갤럭시 S25 시리즈의 엑시노스 2500 탑재 취소나 3nm의 수주 부진으로 미루어 보아 삼성의 3nm 수율은 아직 매우 저조한 것으로 관측된다.
9. 2 nm
TSMC도 자사의 N2 공정에는 GAAFET 소자를 적용할 예정이라 밝혔으며, 인텔 또한 Intel 20A부터 RibbonFET을 적용하기로 하며 세 파운드리 사 모두 2 nm 공정에 들어서 이름은 서로 다르지만 형태는 거의 유사한 Gate-all-around FET을 적용하게 됐다.IBM과 삼성, 글로벌 파운드리는 공통 플랫폼 연합(Common Platform Alliance)에 속하는 회사다. 2021년 5월 7일에 올라온 기사에 따르면 IBM은 2 nm 칩을 세계 최초로 개발했고, IBM은 팹리스 회사이기 때문에 삼성 파운드리가 생산을 맡았다고 한다. Wikichip에 따르면 이 2 nm 공정의 트랜지스터 밀도는 333.33 MTr/mm^2 이며 이는 TSMC의 3 nm 공정보다는 더 미세하지만 TSMC의 2 nm 공정과 비교시 밀도 측면에서는 열세일 것으로 전망이 된다. Speed Gain 측면에서는 기존의 7 nm와 비교시 45% 높고 전력소모는 1/4 수준을 달성했다고 한다.
현재 각 파운드리 사의 양산 일정은 인텔이 2024년 양산 및 제품 출하를 계획하고 있어 가장 빠르고, TSMC는 2024년 하반기에 리스크 생산에 들어가고 2025년 하반기 대량 양산을 목표로 하고 있으며, 삼성 또한 2025년 대량 양산에 들어가서 2026년 제품 출하를 목표로 하고 있다. 인텔 TSMC 삼성
2024년 3월의 추가 정보에 따르면 삼성은 SF3P(구명칭 3GAP) 공정의 명칭을 SF2로 변경하고 2024년말 생산을 목표로 한다고 밝혔다.#
인텔은 2nm 부터 공정 표기 단위를 옹스트롬(Å) 으로 교체하여 공정명을 Intel 20Å, Intel 18Å로 명명했다. Intel 20Å는 2024년 말 에로우 레이크로 출시될 예정이었으나 취소되었다. 인텔은 20Å의 취소가 비용절감을 통한 18Å에의 선택과 집중을 위함이라고 밝혔으나 이미 기술력 밑천이 바닥난 상황에서 신공정을 취소하고 그 다음 세대 공정에 집중한다는 발표는 과거 GF의 전철을 연상케 하는 흐름으로, 상당히 우려스러운 부분이다. 그럼에도 불구하고 인텔 CEO 펫 겔싱어는 최대 노트북 제조사중 하나인 레노버에 18Å공정으로 뽑아낸 펜서레이크 샘플을 전달하며 아직 포기하지 않았음을 드러냈다.#
10. 1.4nm (14Å)
1.4nm 혹은 14Å급 공정은 2024년 기준 각 회사에서 로드맵으로 밝힌 상황이다. 삼성은 SF1.4 TSMC는 A14 인텔은 intel 14Å라는 명칭으로 개발 중에 있으며, 양산 예정 시기는 인텔이 2026년으로 가장 빠르고, TSMC와 삼성은 둘다 2027년으로 밝혔다.기술적인 면에서 보면 인텔은 ASML에게서 받은 첫번째 High-NA EUV를 바탕으로 가장 빠른 양산을 자신하는 상황이며, 독일의 마그데부르크 팹과 미국 오리건팹 혹은 오하이오 팹에서 양산할 것으로 보인다. 인텔 독일 팹
TSMC는 High-NA EUV를 1나노급 공정인 A10에서 최초로 사용하기로 했기에, A14에서는 기존의 EUV를 사용할 것으로 보인다.TSMC EUV 관련
다만 High-NA EUV는 이 1.4nm 공정까지는 Low-NA EUV보다 도리어 가성비가 나쁠 것으로 추정된다#
11. 현황
삼성은 HKMG, 20nm, 14nm, 10nm, EUV의 적용에 있어서 항상 업계 선두를 유지했다[22]. 하지만 레거시 공정을 제외한 선단공정 내에서의 점유율 측면에서 지속적으로 삼성이 치고 올라오는 걸 묵과할 수가 없었던 TSMC는 7nm 세대부터 천문학적인 돈을 때려 부으면서 공격적인 R&D 전략과 CAPA(생산능력) 확충에 나서기 시작했으며, 7nm 세대에서 공정 기술력, 초도 양산 시기, CAPA 및 고객사 유치와 공정 외적인 패키징 기술 같은 면에서 모두 우위를 점하는 데 성공한다. 이후 이 구도는 현재진행형으로 유지되고 있으며, 양사간의 격차는 1세대 이하로 좁혀지지 못하고 있다.5nm 이후 TSMC의 전략을 보면 TSMC는 7 - 5 - 3 으로의 발전 과정에서 로직 밀도를 각각 80%, 70%로 상대적으로 높은 수준의 변화를 노리는 중이고, 삼성은 7 - 5 - 3 으로의 발전 과정을 거치는 동안 로직 밀도를 각각 33%, 50% 증가시키면서 상당히 낮은 수준의 개선폭을 이루려고 했다[23]. 하지만 기술력의 한계 때문인지 둘 다 바로 3nm로 가지는 못했고 4nm를 거쳤다[24]. 그리고 이 과정에서 삼성 파운드리는 7nm 세대부터 수주 부족으로 작용해오던 스노우볼링 효과가 누적되고 경영진의 방만함까지 겹쳐 최악의 상황을 겪게 된다. GOS 사태 발생 당시 삼성 4nm의 수율은 30% 대이고 5nm 양산 당시에도 수율이 매우 낮았던 것으로 밝혀졌다.
이를 통해 TSMC의 단독 선두는 굳혀졌으며, TSMC는 삼성 파운드리를 쓰려 했던 대형 팹리스사들의 물량까지 소화를 해야 해서 CAPA 문제가 더더욱 심화되었다.
선단공정 기술력과 더불어 CAPA, 그리고 빅칩 양산에 도움을 줄 수 있는 CoWoS와 같은 패키징 기술력도 마찬가지로 TSMC가 여전히 앞서는 상황이다. 세계 5대 반도체 패키징 회사들 중 4개가 대만회사다. 2위가 미국회사인데, 옛날 아남전자인 Amkor technology다. 창업주의 아들이 미국으로 이민가서 본사도 이제 미국 애리조나에 있다. 삼성전자도 퀄컴 센트릭 2400, 엔비디아 GA102, IBM POWER10, 엔비디아 Orin 등을 통해 점차 빅칩 양산에 도전하는 중이며, 삼성전자는 자사 EUV 공정에 적용하기 위한 EUV용 펠리클 기술을 연구하는 중이다.[25]
한편 인텔은 2013년 불도저의 실패로 인한 AMD의 부진을 'CPU 경쟁은 이제 끝났다'는 오판으로 기술개발에 소홀히하여 결국 기술 우위를 놓치고 말았다[26]. 결국 팹의 기술력이 거의 3년 가까이 벌어져버렸으며, 이는 새로운 CEO 팻 겔싱어가 취임해서야 그나마 제대로 된 수습이 시작되었다. 공정 기술력 선두를 되찾겠다고 공언하며 새로운 로드맵도 내놓았으나 당연히 이는 이론상의 로드맵일 뿐이며 실제 현실과는 상당히 동떨어진 모습이다. TSMC와 삼성전자의 5nm 공정이 2020년 하반기부터 본격적인 제품 출하가 시작하는 시점에 인텔은 그제서야 7nm에 기반한 타이거레이크 제품군을 내놓기 시작했으며, 4nm 출하 시기는 2023년 4분기로 TSMC와 삼성전자 대비 2년가량이나 늦어버렸다. 3nm에 해당하는 Intel 3은 2024년 6월 출시로 여전히 두 회사에 비해 1년이상 늦은 상황이다.
물론 14nm에 완전히 멈춰서서 일어서지도 못하던 전과는 다르게 기술 진보를 이루어 내고 있으며, 미국 반도체 정책의 최대 수혜자인만큼 속단하기는 이르지만 현재 상황은 녹록치 않다. 미 정부의 공식적인 인텔 파운드리 사용 독려에도 불구하고 대부분 대형 팹리스들의 태도는 그다지 호의적이지 않다. 또한 요건을 충족하지 못해 CHIP4법으로 지급하는 보조금조차 제대로 타먹지 못하고 있다고 알려졌으나 사실 TSMC를 포함한 그 어떤 업체도 24년 11월 이전에 보조금이 지급된적이 없었으며, 11월 말 TSMC와 GF에 이어 보조금 지급이 완전하게 확정되었다.
12. 관련 문서
[1] 다만 중국 정부 차원에서 직접적으로 지원하는 기업인데다 지적재산권 도용 등의 문제로 인해 기술력 증진이 상당히 비정상적인 구조로 이루어진 결과이긴 하다.[2] 14nm과 10nm의 특성을 혼합한 공정[3] 그래프의 축척이 달라서 그렇지 실제로 2배 격차가 맞다.[4] 실제로 인텔 14nm는 +가 4개까지 붙는다.[5] 구명칭 7LPE&7LPP, 현명칭 SF7E&SF7, SF7E는 삼성에서 공식적으로 홍보하지 않은 내부 공정으로, 엑시노스 9825를 양산하는 데 사용되었다.[6] TSMC N7의 기술을 도용해온 것으로 추정하고 있다.[7] 구명칭 5LPP[8] 구명칭 4LPE[9] 구명칭 4LPP[10] 그 원인 중 하나가 최근 들어 다음 세대 공정으로 넘어갈 때 아날로그, SRAM의 면적 감소율이 로직 면적 감소율에 크게 못 미치기 때문이다.[11] Intel 7에서 생산하는 랩터레이크의 리프레시로 출시했다.[12] 256Mb S램 기준, 이는 초소형 칩이라는 점을 감안해야 한다. 일반적으로 칩의 사이즈가 커질수록 수율이 하락한다.[13] 여기서 실제로 나온 Kirin 9000은 Cortex-A77 + Cortex-A77 + Cortex-A55 조합이어서 의아할 수도 있을 것이다. 그런데 중화권의 테크 유튜버 기커완(Geekerwan)에 의하면 원래는 Cortex-X1 + Cortex-A78 + Cortex-A55 조합의 Kirin 9000 샘플도 같이 있었으나 최종적으로 전자로 결정되었다고 한다.# 그래서 이 표에서는 후자 기준으로 나와 있는 것.[14] (M1 - 133MTr/mm2) ÷ (Apple A12 - 83MTr/mm2)[15] (M3 Max - 183MTr/mm2) ÷ (M1 - 133MTr/mm2)[16] (M3 Max - 197MTr/mm2) ÷ (M1 - 133MTr/mm2)[17] (M4 - 181MTr/mm2) ÷ (M1 - 133MTr/mm2)[18] 때문에 N4 기준이 196.6 MTr/mm2 인데 이에도 못미쳤으며, N3 기준과 비교했을 때 목표치인 314.7 MTr/mm2 와 실제 A17 Pro의 밀도인 183MTr/mm2는 거리가 매우 멀다. 출처 #[19] N3E 기반의 업그레이드 공정, N3E 대비 동일 누설전류에서 성능 5% 향상, 동일 성능에서 전력소모 5~10% 감소[20] intel 7의 경우 고밀도 공정은 캐논레이크의 100MTr/mm^2에 달하나 고성능 공정 60MTr/mm^2에 불과하다. TSMC의 N4의 경우도 고성능 공정은 intel 4보다 밀도가 낮은 것으로 알려져 있다[21] 물론 이 부분에 대해서는, 같은 Cortex-A78 RTL이라고 하더라도 상대적으로 저클럭인 1.6GHz로 작동하는 W1000이 2.35GHz로 작동하며 고성능 스탠다드 셀을 채용하였을 것으로 예상이 되는 기린 9000 ES와 비교해서 동일 공정상에서도 면적 이득을 봤을 것이 명백하다는 점은 감안하고 받아들여야 한다. 하지만 이러한 점을 감안하더라도 기존 5/4nm에 비교하여 풀노드급 면적 감소를 이뤘다는 점 또한 명백하다.[22] HKMG ~ 14nm까지의 기술력 자체는 인텔이 압도적이었지만 파운드리는 생각조차 하지 않고 자사 제품만 생산하던 시절이다.[23] 원래 반도체 공정의 다음 세대는 로직밀도 향상치가 2배일때 붙였음을 감안하면 두회사 모두 완전한 수준의 다음 세대 공정을 개발하지 못하고 나노수를 부풀리며 마케팅을 하는 것이라 볼 수 있다. 다만 숫자만 봐도 알 수 있듯이 삼성의 나노수 부풀림이 상대적으로 더 심각하다.[24] 다만 TSMC의 4nm은 삼성의 4nm와 달리 5nm의 파생 공정이다. TSMC의 4nm은 5nm 대비 칩 면적이 6% 감소하고, 기존 5nm과 설계가 호환된다.[25] 펠리클(pellicle)은 먼지 침투를 막는 일종의 얇은 막이다. 그런데 웨이퍼 위에 막을 씌우는 것과 같으므로 투과율이 굉장히 중요한데, ASML에서 만든 것은 투과율 78~83%, TSMC가 자체적으로 개발해 쓰는 실리콘 기반 펠리클은 85% 정도이다. 그런데 3nm 이하 공정에서는 아무리 낮아도 90% 이상의 투과율이 필요하고, TSMC가 초기 N3B 공정에서 수율이 그다지 좋지 못했던 것도(약 55%) 펠리클의 불충분한 투과율이 수많은 요소 중 하나이다. 게다가 펠리클 또한 소모품이기 때문에 돈이 든다. 그래서 삼성은 펠리클 개발사들 측에 무려 95%의 투과율을 요구하고 있는데 문제는 ASML도 4세대 펠리클이 투과율 90% 목전까지 달성한 게 한계여서 아예 삼성도 펠리클 개발에 참여하고 있다. 이는 투과율이 높을수록 더 적은 수의 펠리클을 사용하여 같은 효과를 낼 수 있기 때문인데, 현재는 탄소나노튜브 기반 펠리클을 개발하고 있다.[26] FinFET을 최초 양산할 당시만 해도 IBM이 (2010년 전후 게임계의 레이트레이싱마냥) "FinFET 그거 언젠가는 해야겠는데, 양산하려면 갈 길이 너무 멀잖아?"하고 연구실 샘플로 논문 내는 정도로만 만족하고 있었는데, 인텔은 무려 시스템 부팅이 되는 ES로 시연했고, 14nm 브랜딩 공정 중 유일하게 20nm 백엔드가 아닌 풀노드였기에 숫자놀음 알못을 제외하고 조금이라도 배경지식이 있으면 인텔과 타사 14nm를 비교 대상으로 잡지도 않았다. 그런 압도적인 우위를 몽땅 다 까먹고 뒤처진 것도 정말 대단한 일이긴 하다.