Music to their ears (Difference engine)

March 20th, 2012

LP를 들으면서 자란 세대들은 LP의 Dynamic Range가 CD의 1/2밖에 되지 않음에도 LP가 더 따뜻하고 더 풍부한 소리를 재생한다고 생각했다.

하지만, 요즘 MP3를 익숙해진 세대들은 원래 음악가들이 실제 만들었던 음악보다는 MP3 압축시에 손상되는 base나 clip된 고주파성분이 포함된 음악에 대한 선호도가 증가하고 있다고 한다.

결국 원래의 신호가 무엇이냐보다는 듣는 사람이 얼마나 익숙한 형태로 표현이 되느냐에 따라서 편안함을 느끼게 된다.

앞으로 신세대들이 FLAC과 같은 Lossless Codec을 사용하고 보편화 되면서 좀 더 세밀함을 표현하는 음악을 신세대들은 선호하게 될 환경이 조성이 될지 궁금하다.

원본 :

Audio compression

Difference engine: Music to their ears

Feb 10th 2012, 10:52 by N.V. | LOS ANGELES

EVER noticed how much louder and murkier music sounds these days? This is not entirely a matter of being out of tune with the times. Nor is it likely to be because today’s iPod generation, having suffered a decade of aural degradation, needs the volume to be cranked up. Your correspondent suspects the record companies have chosen deliberately to sacrifice some of the Compact Disc’s delicious 90 decibels of dynamic range to make their music shout louder than ever over FM radio. Record companies have long believed that making records louder gets them more “needle time”. And the more they are played on the air, the greater presumably are their sales.

The same tricks were performed back in the days of vinyl. Though an LP’s dynamic range was typically little more than half that of a CD’s and its signal-to-noise ratio nowhere near as good, audio engineers were required to compress the signal still further, so the loudness peaks in the audio stream did not bump up against the ceiling of vinyl’s dynamic range. In giving the recording more “headroom”, they could then crank up the overall volume to provide the finished product with extra punch.

In today’s digital world, the upper limit of a CD’s dynamic range occurs when the noise level of the signal hits the equivalent of “one” on the binary scale (where “zero” is silence). More than ever, it seems, audio signals being mastered for CDs are first compressed so they can then be amplified—thereby allowing the music to sound louder for more of the time.

Modern digital compressors can prevent much of the distortion that marred analogue recordings when pushed to their limit. Some engineers argue that a CD has so much dynamic range that a portion can easily be sacrificed for compression. That may be so, but the price is invariably a duller, less airy sound. And the final result can become tedious when every beat hits the medium’s loudness ceiling.

Not that many would notice these days. The audio CD is becoming something of a relic—with sales in America now down to less than half their peak (some 943m albums, worth $13.2 billion, were sold in 2000)—as file-swapping courtesy of websites like Napster took its toll, to be followed by a proliferation of legitimate download services such as iTunes, Amazon, Walmart, Rhapsody and even the legal reincarnation of Napster. All thanks to MP3 and its ilk.

The CD lost out because the record companies were slow to embrace the social and technological changes engulfing their business. Though ideal for use at home or even in a car, the CD was simply too unwieldy to be played on the hoof. Meanwhile, MP3 provided an easy way to distribute pirate copies ripped from borrowed CDs. The audio CD had no encryption—not that copy-protection would have slowed most 14-year-olds. But the killer was that, while a CD offered enough recording room for Beethoven’s Ninth Symphony, popular music fans found it invariably had too many tracks they did not want, and were certainly not prepared to pay for.

An MP3 file (usually a single three- to four-minute music track) is an eleventh the size of the uncompressed original on a CD. The compression-decompression algorithm (“codec”) used relies on psychoacoustical tricks to remove less audible parts of the signal—like a quieter sound masked by a louder one occurring at the same time, or notes near the limit of human hearing.

Such “lossy” codecs are widely used where the loss of some portion of the data is acceptable—as in digital television, DVDs, mobile phones, internet telephony and digital radio. The MP3 codec was the work of the Moving Picture Experts Group, an international organisation that sets standards for audio and video compression and transmission. The group published the MP3 algorithm (officially known as MPEG-1 Audio Layer III) in 1993. But the boost that made it the codec of choice was the release in 1997 of Winamp, a free software program for playing audio files.

Recall that, at the time, most people downloaded data at dial-up speeds. Using such telephone modems, downloading the uncompressed contents of a CD took the best part of a day. Swapping even a single track took over an hour. MP3 slashed the time taken to transfer tracks from hours to minutes. The trade off—a more muffled sound with limited dynamic range—was considered acceptable, given that MP3 files were listened to mostly using cheap portable players with ear-buds.

But things have changed. Three out of four American households now have broadband connections to the internet, with download speeds 20 to 50 times faster than in dial-up days. A music track that took minutes to download a decade ago can now be transferred in seconds; a whole CD in less than an hour. Meanwhile, storage space is no longer a precious commodity. A decade ago, large hard-drives could hold a few tens of gigabytes; today’s store terabytes. So, why bother compressing music files with a lossy codec like MP3?

The short answer is that most of the online services for downloading or streaming music have adopted better ones. One such codec is the AAC (Advanced Audio Coding) algorithm used by Apple’s iTunes and others. Another is the Ogg Vorbis codec, an open-source project supported by the Xiph.Org Foundation.

The longer answer is that the fidelity of an audio file rests on at least three things, each of which can be tweaked to improve sound quality. One is the bit-rate (ie, the amount of data per second) at which the recording is encoded and played back. (The uncompressed audio stored on a CD is encoded at 1,411.2 kilobits per second.) Too low a bit-rate used for compression and artifacts not present in the original recording can become audible in the reproduction. In general, the higher the bit-rate, the larger the compressed file, but the closer it will sound to the original.

Another factor influencing the quality of digital sound is the sampling rate—ie, the number of times per second a sound wave is sampled to create a digital approximation of its analogue profile. The standard CD uses a sampling rate of 44.1 kilohertz. Attempts to sample the sound at higher rates, such as 96 kilohertz or even 192 kilohertz, have failed to catch on.

Probably for good reason. According to the Nyquist-Shannon theory (a cornerstone of communications science), a sampling frequency of twice the maximum frequency in an audio stream is usually enough to reproduce the signal faithfully. As the highest frequency the human ear can resolve is around 20 kilohertz, the CD’s sample rate of 44.1 kilohertz is deemed more than enough.

The third factor affecting the quality of the sound is the compression ratio, which depends on the bit-rate used for the original encoding and the bit-rate chosen to do the squeezing. Thus an MP3 file—ripped from a CD at the standard 128 kilobits per second—has a compression ratio of roughly 11-to-one (ie, 1,411.2 divided by 128). When a bit-rate of 320 kilobits per second is used, the compression ratio becomes little more than four-to-one. In short, the compressed file is bigger but sounds better.

As the bandwidth available for downloading audio files from the internet has increased and hard-drives have become larger, files compressed at 320 kilobits per second (and even 640 kilobits per second) are becoming common. But even that is not enough to satisfy many musicians. Some go as far as to claim the CD has run its course, and have started releasing their music on DVDs and even Blu-ray Discs. All agree, though, that lossy algorithms of the past need to be replaced by lossless ones.

Compression algorithms such as the Free Lossless Audio Codec (FLAC) from the Xiph.Org Foundation and Windows Media Audio Lossless from Microsoft can scrunch an audio file to about half its original CD size. But unlike lossy codecs, lossless ones reconstruct the original audio stream as an exact duplicate without any loss of data. That makes them ideal for creating archives, editing audio files and producing master copies for mass production, as well as for high-fidelity playback.

Rock-and-roll, as usual, is leading the way. Bands such as Pearl Jam and Metallica have used FLAC to sell recordings of their concerts online. The rocker John Mellencamp issued a CD in 2008, which came with a lossless high-definition version on a DVD to demonstrate what the music should really sound like. In 2009, the Canadian singer/songwriter Neil Young (“the Godfather of Grunge”) released the first of what is to be a ten-volume set of archives on Blu-ray Disc as well as CD and DVD. With its lossless codecs, Blu-ray can play high-resolution music way beyond a CD’s dynamic range.

Whether the listening public can actually hear the subtleties being conveyed is another matter. The perceived quality of a recording depends on what the listener’s ears have been trained on (as well as the quality of the audio equipment and the ambient noise). Jonathan Berger, a professor of music at Stanford University in California, gets his incoming students every year to listen to a variety of recordings compressed with different algorithms. Each year, their preference for music in MP3 format increases.

Clearly, the iPod generation is becoming attuned to the “sizzle” caused by a muffled base and clipped high notes that MP3’s lossy codec imparts. Their preference is similar to the way audiophiles from a previous generation swore that vinyl LPs produced a warmer, richer sound than CDs. To their ears, they did.

In reality, they had simply become so attuned to the clicks and crackles, as well as the limited dynamic range, of the older format that the familiarity made them feel comfortable. A future generation—trained to hear a recording’s subtleties burned by a lossless codec onto an audio Blu-ray Disc—will be puzzled by their parents’ preoccupation with sizzling songs rather than an authentic replica of the music the performer actually created.

손실/무손실 오디오 간의 차이를 느낄 수 있나요?

March 18th, 2012

다음은 Time지에 실린 기사를 번역한 것입니다.

Can You Hear the Difference between the Lossless and Lossy Audio?

By Matt Peckham@mattpeckhamMarch 2, 2012 |

Read more:

Can your ears tell the difference between a lossless and lossy song? I’m talking about the difference between audio that’s been compressed in a way that preserves the original audio data perfectly when it’s decompressed and played back (lossless, as in “nothing lost in translation”), and audio that’s been compressed in a way that actually changes the audio by either slightly or more noticeably attenuating it (lossy, or “some things lost in translation”).

손실이 없는 노래와 손실이 있는 노래사이의 차이를 여러분들의 귀로 감지할 수 있나요?  오디오 데이터를 압축을 풀고 재생할 때 완벽하게 원래 오디오 데이터를 보존하는 방법으로 (무소실, 즉 전달과정에서 없어지는 것이 없는 것)  압축한 오디오와, 오디오 데이터를 약간 훼손하거나 더 두드러지게 훼손함으로써 실제로 오디오를 변경하는 방법으로 (손실, 즉 전달과정에서 뭔가 없어지는 것)  압축한 오디오 사이의 차이에 대해서 이야기 하고 있습니다.

When you hear numbers like 128 Kbps or 256 Kbps tossed around in relation to MP3 files or songs you’ve purchased through services like Amazon or iTunes, they’re referring to the bit rate of an audio file. With lossless audio, that bit rate (for songs of average sonic complexity) typically lives in the vicinity of 700 to 1,000 Kbps — a range well above the human ear’s ability to discern differences. With lossy audio, however, the standard these days is 256 Kbps, a rate that produces audio well within the human ear’s ability to notice differences when compared to the lossless analogue.

Amazon이나 iTunes와 같은 서비스를 통해서 여러분들이 구매해 왔던 MP3 파일이나 노래와 관련되어 가볍게 논의되는 128 Kbps와 256 Kpbs와 같은 숫자들을 들을 때, 그 숫자들은 오디오 파일의 비트 전송율을 나타내는 것입니다. 무손실 오디오에서는,  (평균적인 소리의 복잡도를 가지는 노래에 대해) 비트 전송율은 전형적으로 700 ~ 1,000 Kbps (차이를 포착해내는 사람의 귀의 능력은 넘어서는 영역) 정도가 됩니다.  그러나, 손실 오디오에서는, 요즈음 표준 비트 전송율은 256 Kbps (무손실 아날로그 오디오와 비교해서 차이를 감지할 수 있는 인간의 귀의 능력 내에서 오디오를 잘 생성하는 비트 전송율)입니다.

The sole reason for compressing an audio file to low-level bit rates is to control size. The smaller the audio file, the easier it is to fit on a mobile playback device with limited space. My 28,000-song music library is fully lossless (Apple’s codec), but it’s also nearly 600 GB. It’ll be awhile before we’re toting around 1TB phones or tablets (Apple’s crème de la crème iPod for storage, the so-called iPod Classic, tops out at 160GB). If I encoded all my music at the going rate of 256 Kbps, my library would clock in well below half its current size, and I’d probably triple or quadruple the number of songs I could cram on my 16GB iPhone 4.

오디오 파일을 낮은 비트 전송율로 압축하는 유일한 이유는  크기 조절
오디오 파일이 작으면 작을수록, 제한된 용량을 가진 이동 재생 기기에 부착하기가 더 수월

오디오 파일을 낮은 비트 전송율로 압축하는 유일한 이유는 그 크기를 조절하는 것입니다. 오디오 파일이 작으면 작을수록, 제한된 용량을 가진 이동 재생 기기에 부착하기가 더 수월합니다. 내가 가진 28,000곡의 음악 수집품들은 전적으로 무손실(애플의 코덱)이지만, 거의 600 GB입니다. 1TB 폰이나 태블릿이 나오기 전까지는 어느 정도 시간이 걸릴 것입니다.  모든 내 음악을 현재 비트 전송율인 256 Kbps로 부호화(encoding)을 한다면, 내 음악 수집품들은 현재 크기의 반 이하로 잘 기록될 수 있을 것이고, 아마도 16 GB 아이폰4에 밀어 넣을 수 있는 노래의 수를 3배 또는 4배로 늘릴 수 있습니다.

The question is, can most people really hear the difference between lossless and lossy audio — say 256 Kbps, since it’s the current standard? The answer’s a bit more complex, but before we delve into that sometimes touchy subject, let’s talk about what’s called an “ABX test.” That’s a double-blind (that is, eliminating subjective bias) way to compare an A and B source with a random X source selected from A or B that you then try to match to the original source. In an audio ABX test, you first listen to the lossless and lossy versions of a song, then attempt to match random playbacks (X) of one or the other with the correct version (A or B).

무손실 오디오와 256 Kbps에서의 손실 오디오 사이의 차이를 실제로 들을 수 있느냐를 테스트 할 수 있는 한 가지 방법 : ABX 테스트

질문은 대부분의 사람들이 예를 들면 무손실 오디오와 (현재 표준으로 사용되고 있는) 256 Kbps에서의 손실 오디오 사이의 차이를 실제로 들을 수 있느냐는 것입니다. 그 정답은 좀 더 복잡합니다. 그러나, 우리가 가끔은 민감한 주제를 캐기 전에, “ABX” 테스트가 무엇인지에 대해서 얘기를 해 보도록 하겠습니다.  이것은 이중 맹시험(double blind-test, 즉 주관적 편향을 제거하는 것) 방법으로 여러분이 원본에 짝지으려고 하는 A 또는 B에서 선택된 임의의 시료 X와 A와 B 시료를 비교하는 방법입니다.  ABX 오디오 시험에서, 여러분들은 먼저 한 노래의 무손실 버전과 손실 버전을 듣습니다. 그런 다음에, 임의로 재생본 (X)를 올바른 버전(A 또는 B)에 어울리는 것을 찾으려고 시도합니다.

You can find several free utilities that offer the test for both Mac and Windows. My favorite on the Mac is ABXTester, and for Windows, there’s a plugin for the free audio player foobar2000 called ABX Comparator that’ll let you do the same (feel free to suggest others in the comments below). You pick the audio files for the A and B sources, then the app plays (or lets you play) either sample at random and asks you to match it with its source. ABXTester give you five randomly selected ‘X’ samples, for instance, then lets you check your results, returning a percent correct score (from 0% to 100%).

여러분은 Mac용과 Windows용 둘 다에 대한 테스트를 제공하는 여러 개의 유틸리티들을 찾을 수 있습니다.  Mac용으로 내가 좋아하는 것은 ABXTester이고, Windows용으로는 (아래에 있는 의견란에 다른 것을 자유롭게 제안할 수 있도록) 같은 것을 하도록 하는 ABX Comparator 라고 불리는무료 오디오 플레이인 foobar2000용 plugin이 있습니다. A와 B 시료들에 대한 오디오 파일을 고른 다음, 여러분의 결과를 체크하도록 하며  (0%에서 100%까지) 퍼센트로 정확한 점수를 알려줍니다.

A crucial point before testing: What you listen to the audio samples on matters just as much as things like the sample’s bit rate. Your laptop speakers aren’t going to cut it. Neither are your computer’s desktop speakers if they’re your garden variety Labtec or Bose or Insignia. You’re going to want a pair of reasonably high-end, over-the-ear headphones, ideally. That’s for the audiophile listening test.

시험 전에 중요한 점 : 여러분이 오디오 샘플을 주의깊게 듣는 것은 샘플의 비트 전송율과 같은 것 만큼 중요합니다 . 여러분의 랩탑 스피커가 오디오 샘플의 음질을 열화시키지는 말아야 합니다. 여러분 컴퓨터의 데스크탑용 스피커가 흔히 있는 Labtec, Bose 또는 Insignia라 할 지라도 데스트탑용 스피커는 안됩니다. 이상적으로 꽤  최고급의, 귀를 덥는 헤드폰을 원할 것입니다. 이것은 오디오 애호가들의 청취 시험을 위한 것입니다.

But as any audiophile has to admit, most people don’t sit around listening to audio through high-end, head-mounted earphones. They’re more likely listening in noisy ambient environments (say your living room’s stereo system, while making dinner, kids playing, the dog barking, etc.), or while out for a walk or run as cars go by, or in a car with vehicle noise, wind noise, passing traffic noise, etc. Our listening lives are sonically cluttered, compromising our ability to pick up subtle sonic differences as incoming frequencies overlap. It’s thus worth plugging your working pair of earphones, e.g. earbuds, those sports headphones with over-the-ear hooks, etc., and running an ABX test somewhere with ambient noise. Even if you can easily tell the difference between lossless and lossy audio in the audiophile test, chances are excellent you won’t be able to while jogging past the construction guy who’s jack-hammering the pavement across the street.

그러나 어떤 오디오 애호가라도 동의해야만 하듯이, 대부분의 사람들은 최고급의 머리에 쓰는 이어폰을 통해서 오디오에 기울이며 앉아 있지는 않습니다. 그들은 거의 주변 잡음이 많은 환경 (예를 들면 저녁 식사를 만들거나 얘들이 뛰어놀며 개가 짖는 동안의 거실의 스테레오 시스템)에서, 또는 차들이 지나갈 때 야외에서 걷거나 뛰는 동안, 또는 자동차 소음, 바람 소리, 지나가는 교통 소음등이 있는 차안에서 청취하기가 쉽습니다. 우리들의 청취 환경은 소리에 관해서는 복잡합니다. 그리고 이런 환경으로 인해 입력 주파수들이 중첩이 되면서 미묘한 소리의 차이를 골라내는 우리의 능력이 나빠집니다. 따라서, 이어폰과 함께 동작하는 것들, 즉 이어버드(휴대전화와 함께 사용하기 위해 귀에 끼는 작은 이어폰), 귀를 덮는 갈고리가 있는 스포츠 헤드폰등을 끼워 넣고 주변 잡음이 있는 어떤 곳에 ABX 테스트를 실행할 만한 가치가 있습니다. 여러분이 쉽게 오디오 애호가 테스트에서 무손실 오디오와 손실 오디오 사이의 차이를 쉽게 말할 수 있다 할 지라도,  길을 건널 때 포장도로를 드릴로 뚫는 공사 인부를 지나서 조깅을 하는 동안 테스트를 하지 않는다는 것만으로도 좋은 것일 것입니다.

I won’t go into the differences between encoders here (that is, the mechanism/algorithm for converting an audio source into another format). Suffice to say there’s an often noticeable difference between different encoding schemes at the same bit rate. AAC, for instance, is generally considered a little better, bit rate for bit rate, than MP3 (Apple’s iTunes Store uses 256 Kbps AAC). Bear that in mind as you’re testing.

나는 여기에서 인코더들사이의(즉, 오디오 원본을 또 다른 형태로 변환시기 위한 장치/알고리듬) 차이까지 깊이 파헤치지는 않을 것입니다.  같은 비트 전송율에서 여러 인코딩 기법들 사이에 두드러진 차이가 가끔 발생한다고 말하는 것으로도 충분합니다. 예를 들면, AAC는 일반적으로 MP3보다 약간 더 좋다고 생각들을 합니다. (애플의 iTuns Store는 256 Kbps AAC를 사용합니다) 여러분의 테스트를 할 때 그것을 명심하세요.

I’ll be back shortly to talk about my experience grappling with this over the past several years. My contention, since I’m usually able to hear the difference between 256 Kbps and lossless audio in the audiophile version of these ABX tests, is that merchants like Apple and Amazon ought to offer lossless audio and let us choose how to encode it. I’d rather have the option to encode down, and that it be my choice, than be stuck with a compromised audio source that — however indistinguishable in a noisy ambient environment — isn’t being reproduced (assuming reasonably high-end audio reproduction equipment) as the original audio engineering team intended.

지난 몇 년에 걸쳐 이것을 극복하려는 나의 경험에 대해 얘기하는 것으로 돌아가도록 하겠습니다. 나는 이런 ABX 테스트의 오디오 애호가 버전에서 일반적으로 256 Kbps와 무손실 오디오 사이의 차이를 들을 수 있기 때문에, 나의 주장은 Apple과 Amazon과 같은 상업회사들이 무손실 오디오를 제공해야만 하고 우리가 그것을 인코딩하는 방법을 선택할 수 있도록 해야 하는 것입니다.  원래 오디오 공학 팀이 의도했듯이 주변 잡음이 있는 환경에는 구별할 수 없고 꽤 고가의 오디오 재생 장치에서는 재생되는 않고 있는 재성능을 발휘하지 못하는 음원을 강요받기 보다는 인코딩할 선택권을 갖고 싶습니다.

Apple과 Amazon과 같은 상업회사들이 무손실 오디오를 제공해야만 하고 우리가 그것을 인코딩하는 방법을 선택할 수 있도록 해야

Original Source :

VoLTE 서비스에 대한 생각

March 8th, 2012

1. 들어가며

오늘(2012년 3월8일) 신문에 LG U+에서 VoLTE 서비스를 시연한 것을 대대적으로 싣고 있다.

이 VoLTE의 내용을 간단히 정리해 보고 이 서비스가 어떤 기술적/역사적 의미를 가지게 될 지 개인적인 생각을 정리해 보고자 한다.

2. VoLTE 서비스의 기술적 고찰

* VoLTE (Voice Over LTE)는 음성통화를 데이터망으로 한다는 의미 –> 패킷 단위로 과금을 한다는 의미.

* VoLTE 통화의 장점
기존 음성통화가 200~3,400Hz 대역을 이용 주변 소리를 제거하고 약간 탁한 음성만 전달하는 것에 비해,
VoLTE는 AMR-WB(Adaptive Multi Rate Wideband) 코덱을 사용 50~7,000Hz의 넓은 대역을 이용
–> 명료성과 자연스러움등 기존 전화 음성에 비해서 화자의 원래 목소리에 가까운 소리 재생
* 문제점 : 기존 시스템과 호환성이 없음.
기존 LTE 기기에서 VoLTE 지원은 되지 않음.
퀄컴 퀄컴 MSM8960 칩이 아니더라도 소프트웨어 방식으로 사용할 수는 있지만, 품질 확보가 어려워 제공할 수 없다
–> 통신사에서는 VoLTE 서비스가 기존 통신서비스보다 프리미엄의 의미를 포장하기 위해 품질이 좋지 않은 일반 단말기에서는 서비스를 하지 않고 전용 VoLTE  단말기에서 이 서비스를 하는 것을 선호할 듯.

3. VoLTE 서비스의 기술사적 의미

* 패킷 기반 단일요금제
: 기존 3G나 4G와 달리 음성과 데이터를 전달하는 채널이 하나로 통합됨으로써  3G나 4G에서 처럼 음성통화에만 높은 요금을 부과할 수 있는 이론적 배경이 사라짐. –> 이것은 패킷에 전달되는 내용물의 종류에 상관없이 단일한 원가를 제공.  –>  기존의 서킷망 통신 서비스에 비해서 음성 통신의 원가가 저렴해진다.
* 음성 통신 원가 하락의 의미
음성통화의 데이터 사용량이 동영상 콘텐츠 소모량보다 적다 –>
LTE 패킷단위 과금을 하면  음성통화요금 훨씬 낮아짐  –> 통신사의 수익 감소

4. 결론

결국 기술적으로 기존 시스템에서 불가능했던 음성 통화의 원가를 혁신적으로 낮출 수 있는 새로운 패러다임을 VoLTE가
제공하고 있다. 하지만, 이것은 통신사의 수익 모델을 해치는 결과를 만들어 내고 있다.
하지만, 이런 결과에 안주해서 기존의 수익 모델을 고수하며 기득권을 지키려고만 하는  통신사들은
지금은 보이지 않는 새로운 경쟁자들을 맞이하게 될 것이고  기존의 통신사들은 빙하기를 맞은 공룡이 될 수도 있을 것이다.
결국, 이런 기술적 현실은 모든 사람들이 창조적 파괴를 통해 새로운 통신 서비스의 패러다임을 요구라는 시대적 사명을 전하고  있다.


February 22nd, 2012


Mixed-excitation linear prediction (MELP) is a United States Department of Defense speech coding standard used mainly in military applications and satellite communications, secure voice, and secure radio devices. Its standardization and later development was led and supported by NSA, and NATO.


1. History

The initial MELP was invented by Alan McCree around 1995 while a graduate student at the Center for Signal and Image Processing (CSIP) at Georgia Tech. The technology was subsequently licensed to Atlanta Signal Processos Inc. (ASPI) (later acquired by Polycomm), for commercial development. Subsequently, ASPI teamed with Texas Instruments to create the ASPI/GT/TI 2400 bit/s MELP. That initial speech coder was standardized in 1997 and was known as MIL-STD-3005. It surpassed other candidate vocoders in the US DoD competition, including: (a) Frequency Selective Harmonic Coder (FSHC), (b) Advanced Multi-Band Excitation (AMBE), (c) Enhanced Multiband Excitation (EMBE), (d) Sinusoid Transform Coder (STC), and (e) Subband LPC Coder (SBC). Due to its lower complexity[citation needed] than Waveform Interpolative (WI) coder, the MELP vocoder won the DoD competition and was selected for MIL-STD-3005.

1.1 MIL-STD-3005

Between 1998 and 2001, a new MELP-based vocoder was created at half the rate (i.e. 1200 bit/s) and substantial enhancements were added to the MIL-STD-3005 by SignalCom (later acquired by Microsoft), AT&T and Compandent, which included (a) additional new vocoder at half the rate (i.e. 1200 bit/s), (b) substantially improved encoding (analysis), (c) substantially improved decoding (synthesis), (d) Noise-Preprocessing for removing background noise, (e) transcoding between the 2400 bit/s and 1200 bit/s bitstreams, and (f) new postfilter. This fairly significant development was aimed to create a new coder at half the rate and have it interoperable with the old MELP standard. This enhanced-MELP (also known as MELPe) was adopted as the new MIL-STD-3005 in 2001 in form of annexes and supplements made to the original MIL-STD-3005, enabling the same quality as the old 2400 bit/s MELP’s at half the rate. One of the greatest advantages of the new 2400 bit/s MELPe is that it shares the same bit format as MELP, and hence can interoperate with legacy MELP systems, but would deliver better quality at both ends. MELPe provides much better quality than all older military standards, especially in noisy environments such as battlefield and vehicles and aircraft.

1.2 STANAG-4591 (NATO)

In 2002, the US DoD MELPe was adopted also as NATO standard, known as STANAG-4591. As part of NATO testing for new NATO standard, MELPe was tested against other candidates such as France’s HSX (Harmonic Stochastic eXcitation) and Turkey’s SB-LPC (Split-Band Linear Predictive Coding), as well as the old secure voice standards such as FS1015 LPC-10e (2.4 kbit/s), FS1016 CELP (4.8 kbit/s) and CVSD (16 kbit/s). Subsequently, the MELPe won also the NATO competition, surpassing the quality of all other candidates as well as the quality of all old secure voice standards (CVSD, CELP and LPC-10e). The NATO competition concluded that MELPe substantially improved performance (in terms of speech quality, intelligibility, and noise immunity), while reducing throughput requirements. The NATO testing also included interoperability tests, used over 200 hours of speech data, and was conducted by 3 test laboratories world wide. Compandent Inc, as a part of MELPe-based projects performed for NSA and NATO, provided NSA and NATO with special test-bed platform known as MELCODER device that provided the golden reference for real-time implementation of MELPe. The low-cost FLEXI-232 Data Terminal Equipment (DTE), which are based on the MELCODER golden reference, are very popular and widely used for evaluating and testing MELPe in real-time, various channels & networks, and field conditions.

In 2005, a new 600 bit/s rate MELPe vocoder was added to the NATO standard STANAG-4591 by Thales Group (France).

2. Compression Level

Bitrate Compression ratio over G.711 Payload size Payload interval
2400 bit/s 26.7 X 54 bits 22.5 ms
1200 bit/s 53.3 X 81 bits 67.5 ms
600 bit/s 106.7 X 54 bits 90 ms

As with any low bitrate codec, reaching high levels of compression will involve a trade-off against distortion, and also codec state recovery in the face of packet loss.

3. Intellectual Property Rights

Note that MELPe (and/or its derivatives) is subject to IPR licensing from the following companies, Texas Instruments (2400 bit/s MELP algorithm / source code), Microsoft (1200 bit/s transcoder), Compandent Inc. (part of 2400, 1200, 600 bit/s source code), Thales (600 bit/s rate), and AT&T (Noise Pre-Processor NPP).

For US government and NATO applications the IP licensing royalties are waived. For all other applications, licensing is required from all IPR holders.

4. External Links

Telecom and Media Libraries – FAXLIB, VoLIB and AEC/AER for TMS320C64x+ and TMS320C55x Processors

February 20th, 2012

TI 칩에 번들로 제공되는 통신 및 미디어 Library

(FaxLib, VoiceLib and AEC)

생각보다는 많은 기능들을 제공하니까 비싸지만 TI칩을 사서 쓰는 것인가?

아래는 TI의 홈페이지에서 캡처한 자료들입니다.

(원문출처 :


Voice Library - VoLIB provides components that, together, facilitate the development of the signal processing chain for Voice over IP applications such as infrastructure, enterprise, residential gateways and IP phones. Together with optimized implementations of ITU-T voice codecs, that can be acquired from TI separately, the components of VoLIB satisfy most of the fundamental building blocks required to develop a complete VoIP signal processing chain.

Fax Library – FAXLIB provides components that allow a development team to reduce time-to-market by providing the major building blocks of a fax relay processing system. The library contains reliable field-hardened fax relay processing software.

Acoustic Echo Cancellation/Removal (AEC/AER) - AER serves the purpose of removing and minimizing the impact of acoustic echo in a phone or other similar devices or systems. The acoustic echo is generated by the coupling between the speaker and the microphone of the same device or system. When the system is operated in hands-free mode, the acoustic echo can be very strong, and may be even higher than the direct speech power generated by the near-end talker.

Additional Information:

BIOS Forum



  • Telogy Software Line Echo Canceller (ECU)
  • Tone Detection Unit (TDU)
  • Caller ID Detection/Generation (CID)
  • Tone Generation Unit (TGU)
  • Voice Activity Detection Unit (VAU)
  • Noise Matching Functions
  • Packet Loss Concealment (PLC)
  • Voice Enhancement Unit (VEU)


  • Fax Interface Unit (FIU)
  • Fax Modem (FM)
  • High-level Data Link Control (HDLC)


For detailed information, click GET SOFTWARE button (above) to find AER Fact Sheet and additional documents.

  • Automatic Microphone Gain Control (AGC)
  • Transducer Equalization (EQ)
  • Dynamic Range Compression (DRC)
  • Adaptive Spectral Noise Reduction (ASNR)

mVoIP 무료 통화의 품질에 영향을 미치는 요인은?

February 9th, 2012

원문출처 :

통화 품질에 영향을 미치는 요소는 무엇일까요?

스마트폰 환경에서 mVoIP의 통화 품질에 영향을 미치는 요소는 크게 보면

  • 스마트폰에 고유한 영역
  • 음성 통화가 흘러다니는 네트워크 영역,
  • 통신사가 제공하는 것과 같은 통신 인프라

로 구분해 볼 수 있습니다.

A. 스마트폰 고유 영역에서 통화 품질에 영향을 미치는 요소 3가지.

1. 자신이 했던 말이 다시 들리는 현상

최근 스마트폰 무료 통화에서 가장 흔히 경험하는 것이 자신이 했던 말이 다시 들리는 현상입니다. 이는 무료 통화 애플리케이션과 스마트폰 단말 간에 반향음을 제거하지 않아서 나타나는 현상이라고 보시면 됩니다.
통화 상대방의 단말기에서 반향음이 발생하여 내 목소리가 통화 중 들리게 되면 음성 전달에 혼선이 생깁니다. 이를 방지하는 것이 AEC(Acoustic Echo Control, 반향음 제거)입니다.

2. 주변 잡음 기능 제거

음성 통화의 중요한 기능 중 하나가 주변 잡음을 제거하는 기능입니다.
이 NS(Noise Suppression, 잡음 제거)는 주변에서 발생하는 잡음이 통화 상대방에게 전달되는 것을 최소화하는 것으로 역시 통화 품질을 유지하는 핵심 기능입니다.

3. 스마트폰의 볼륨 출력값에 따른 잡음 유입 방지

그 밖에도 스마트폰에서 설정한 볼륨 값에 따라 주변 잡음 유입을 다르게 하는 기능이며
음성이 흐르지 않을 때 패킷 송신량을 조정하여 대역폭을 효율화하는 기능 등을 제공합니다.

B.음성 통화가 흘러다니는 네트워크 영역에서 통화 품질에 영향을 미치는 요소

1. 상대방 목소리가 갑자기 안 들림.

스마트폰 무료 통화에서 통화할 때 상대방 목소리가 갑자기 안 들리는 경우가 있습니다. 3G망을 이용하여 무료통화를 할 때는 음성을 압축하여 패킷으로 전달하는데 이때 무선 네트워크 구간(WiFi나 3G 데이터망)에서 음성품질이 나빠지게 되면서 상대방 목소리가 안 들리게 됩니다. 무료통화 서비스를 제공하는 사업자들은 대부분 음성품질 테스트를 하는데, 최적의 환경에서 테스트하다 보니 네트워크 환경이 좋지 않은 곳에서는 어김없이 이런 현상을 겪게됩니다. 이런 현상을 막는 기능(PLC: Packet Loss Conealment)은 반드시 필요합니다.

2. 음성 패킷 유실

무료 통화 가끔 음성이 뭉쳐서 들리거나, 일정 간격을 두고 들리는 현상을 경험한다.
이 현상은 3G 데이터망을 통해 음성이 전달될 때 패킷이 일정하게 전달되지 않아 일어나는 현상으로 보시면 됩니다. 교통체증구간에서는 차량정체가 이어지다가 그 구간만 지나면 시속 100km로 달리는 것처럼, 정체가 구간에서는 음성 패킷이 다닥다닥 붙어서 전달되어 음성이 뭉쳐서 들리고 정체구간이 끝나면 음성이 끊겨서 조금씩 전달됩니다.

위 현상들은 무료통화를 사용할 때 나타나는 스마트폰과 네트워크상에서 통화 품질에 영향을 미치는 요소이다. 최근 출시된 스마트폰 무료통화 서비스들을 사용할 때 통화 품질이 안 좋다고 느껴진다면 이런 요소들을 고려하지 않았거나, 개선작업에 힘쓰지 않았다고 할 수 있습니다.

요약하면 아래와 같이 볼 수 있습니다.

대부분 무료통화 앱은 음성 품질에 영향을 미치는 요인을 분석하여 버전 업데이트를 하고 있지만,
망 구간에 따라 일정한 음질을 보장해주지 못하는 게 현실입니다. 국내의 무료통화 앱은 이런  망 환경을 고려하여 음성 품질 개선에 보다 힘써야 하며, 지속적인 버전 업데이트를 통해 사용자들에게 깨끗한 통화 품질을 제공해야 합니다. 아직 LTE망이 시작단계이므로 현 3G 데이터망에서 패킷 유실을 하지 않게 더 노력해야 합니다.

균일한 네트웍 환경을 제공하지 못하는 환경에서 일정한 음질을 보장하지 못함. 패킬 유실 상황에 대한 대비 필요

C. 통신 인프라 기술 영역에서 통화 품질에 영향을 미치는 요소

무료 통화 서비스는 기존 음성 서비스 및 통신 장비 경험을 바탕으로 통화 품질을 보장하고,
스마트폰에서 무료통화 서비스의 영속성을 유지하는 기술력이 제일 중요합니다.
즉, 이런 기술력은 경험이 가장 중요합니다.
스마트폰 애플리케이션, 네트워크에서 일정한 통화 품질 유지, 마지막으로 통신인프라를 고려한 무료통화 서비스를 준비해야만 사용자가 매끄러운 서비스를 쓸 수 있습니다.

카카오톡이 mVoIP를 도입하는데 주저하는 이유도
3G 데이터망에서 일정 통화 품질을 보장해주지 못하기 때문일 것입니다.1,700만 명의 카카오톡 회원들에게 좋은 품질을 제공하기 위해 아마도 LTE망이 본격적으로 구축되었을 때 도입할 가능성을 언론에서 얘기하고 있지요.

원문출처 :

Mobile VoIP (mVoIP)

January 20th, 2012

Mobile VoIP (또는 간단히 mVoIP)는 Voice over IP(IP을 통한 음성 ) network에 이동성(mobility)를 확장한 것이다. 일반적으로 두 가지 유형의 통신이 지원된다. 하나는 모든 기지국이 동일한 LAN에 연결되어 있는 좁은 지역이나 캠퍼스 통신을 위한 무선/ DECT / PCS 프로토콜이고 다른 하나는 3G/4G 프로토콜을 이용한 더 넓은 영역 통신이다.
무선 전화를 VoIP 망에 통합할 수 있는 여러 가지 방법이 있다. 하나의 구현 형태는 데이터 망을 이용해서 SIP 메시지를 주고 받고 음성에 대한 경로로 RTP를 주고 받는 표준 SIP Client로 휴대전화기를 바꾸어 주는 것이다. 이동 전화기를 표준 SIP client로 바꾸어 주는 이 방법은 휴대 전화기가 고속 IP 통신을 지원하는 것을 요구한다. 이런 형태의 적용시에는 (전달하고 전달받는 것 둘 다가 고속이어서 양방향 모두 고속인) EVDO rev A 및 HSDPA, Wifi, WiMAX와 가튼 광대역 IP가 가능한 무선망을 통해서 표준 VoIP 프로토콜 (전형적으로 SIP)를 사용한다.
이동 통신 통합(mobile integration)에 대한 또 한 가지 구현 형태는 게이트웨이와 같은 소프트스위치(softswitch)를 사용하여 SIP와 RTP를 이동망의 SS7 기반시설(infrastructure)로 연결하는 것이다. 이렇게 구현할 때는, 휴대 전화기는 그것이 (GSM나 CDMA 기반 장치로써) 항상 가지고 있는 형태로 계속 동작하지만, 그 단말에 advanced SIP 기반 서비스를 제공할 수 있는 SIP application 서버가 그 단말을 제어할 수 있다. 오늘날 여러 판매사들이 이런 형태의 기능을 제공한다.
Mobile VoIP는 경제성과 이동성 상이에 타협을 필요로 한다. 예를 들면, Wi-Fi를 통한 음성는 잠재적으로 무료 서비스를 제공하지만 단일한 Wi-Fi Aceess Point의 무선 통신 가능 구역내에서만 유용하다. 무선 프로토콜은 훌륭하게 음성을 지원하고 기지국의 핸드오프(hand-off : 핸드오프는 이동 전화 가입자가 한 무선 구역에서 다른 무선 구역으로 이동해 갈 때, 현 통화 채널을 다른 무선 구역의 통화 채널로 자동적으로 전환해 줌으로써 통화가 계속되게 하는 기능을 말한다.)조차도 지원하지만, 핸드오프 프로토콜을 통신 회사들이나 대부분의 장치들이 일반적으로 제공하는 것은 아니기 때문에 모든 기지국들이 하나의 LAN 상에서 통신하는 것이 필요하다.
EVDO rev A나 HSDPA를 이용하는 이동통신망 사업자들에게서 나오는 고속 서비스들이 더 좋은 오디오 품질과 이동 통신 기지군들의 사이에 빠른 핸드오프를 포함해서 대도시-정도의 무선 통신을 가능하게 하는 역량을 가지고 있다. 그러나 전형적으로 Wi-Fi 기반 VoIP 서비스보다 더 비쌀 것이다.
단말 제조사들이 더 강력한 프로세와 덜 비싼 메모리를 활용하기 때문에, 스마트폰에서 이메일을 주고 받는 것, (낮은 속도라도) 웹을 돌아다니는 것 그리고 사용자가 TV를 시청하는 것이 가능하다. Mobile VoIP 사용자들은 2012년까지 1억명을, InSTat 프로젝트는 2013년까지 2억8,800만를 넘어설 것으로 예측되었다.
이동통신망 사업자 산업 비즈니스 모델은 특정 사이트를 방문하는데 추가 요금이 없이 접근이 자유롭고 빠른 인터넷 사용자의 기대치와 충돌을 일으킨다. 그러나 저 멀리서 그들이 접대받을 지도 모른다. 이런 것 때문에, Mobile VoIP에서 대부분의 혁신은 학교나 회사 네트웍, Asterisk와 같은 오픈 소스 프로젝트 및 값비싼 실험을 정당화 할 만큼 그 이득이 충분히 큰 응용분야 (의학이나 군사)에서 나올 것이다.

출처 :

Design Thinker의 지식체계

December 26th, 2010

디자인적으로 사고하는 사람들의 지식체계는 태도와 도구 그리고 경험의 세 가지 차원 모두 독특하다. 그들의 타당성과 탐색의 가치를 높이 평가하는 ‘자기강화적 선순환(self-reinforcing spiral)’을 창출한다. 태도와 도구 그리고 경험을 개발하여, 비즈니스를 수행하는 새로운 방법과 새로운 비즈니스를 디자인 할 수 있는 능력을 갖춘다. 디자인적 사고를 통해 우리는 과거에 계속 매달리지 않고 미래를 창조할 수 있다.
지바디자인의 창업자이자 번뜩이는 재능을 가지 소랍 바수기(Sohrab Coussoughi)는 이렇게 말한다. “가장 좋아하는 프로젝트가 무엇이냐고요? 내 대답은 항상 똑같습니다. 바로 ‘다음 프로젝트’입니다.”

디자인적으로 사고하는 사람들의 지식체계

근본적인 태도 : 훌륭한 디자이너는 회계사보다 꼼꼼하다

디자인적으로 사고한다고 해서 세상이 타당성을 숭배하며 탐색을 장려한다는 망상에 빠져 있다는 것은 아니다. 그들은 실제로 타당성보다 신뢰성을, 혁신보다는 일관성을 선호하는 세계에서 살아가고 있다는 사실을 정확히 이해하고 있다. 또한 필터의 현 단계 안에서 지식을 세밀하게 다듬는 작업이야말로 세계가 즉시 승인하고 일관된 보상을 부여하는 방법이며, 비즈니스가 성과를 내는 데 핵심적인 것은 지식의 활용이라는 사실을 잘 알고 있다.
이처럼 세상의 통상적인 시각을 잘 알고 있음에도 불구하고, 디자인적으로 사고하는 사람들은 타당성과 신뢰성 사이에서 균현을 추구한다. 신뢰성을 결코 무시하지 않지만, 타당한 해답을 얻기 위해서라면 신뢰성을 일정 정도 포기한다. 나아가 필터의 다음 단계로 지식을 심화시키기 위한 삶을 살아간다. 지식을 심화시키는 작업이야말로 이들을 움직이는 핵심동력이며, 자심감과 행복을 만드는 원천이다. 타당성이 신뢰성보다 훨씬 파악하기 어렵고 불명확하지만, 디자인적으로 사고하는 사람들은 타당성이 결여된 상태에서는 지속적으로 경쟁력이 있는 기업을 유지할 수 없다는 점을 이해한다.
디자인적 사고에 기반을 두는 근본적인 태도는 아직 알려지지 않은 것을 추구하고, 뜻밖의 것을 발견할 가능성을 포용하며, 최종적으로 어디에 닿을지도 모른 채 복잡한 현상과 맞서는 일에 착수하면서도 편안한 마음을 유지하는 것이다.
그러나 디자인적인 사고에 기반을 둔다고 해서 아무리 큰 대가를 치르고라도 타당성을 요구해야 한다는 의미는 아니다. 최고의 디자이너들은 그저 별난 것들을 만들어내는 데 그치는 결과를 피하기 위해 신뢰성이 중요하다는 사실을 인지한다.

핵심 도구 : 관찰하고 상상하여 구성하라

디자인적 사고의 핵심 도구는 관찰(observation)과 상상(imagination) 그리고 구성(configuration)이다. 이들 도구의 트로이카는 일관되게 디자인적 사고의 근본적인 태도로부터 나온다.


세 가지 도구 중 첫 번째는 관찰이다. 깊고 세심하며 개방적인 관찰. 디자인적 사고는 지식을 심화시키는 데 도움이 될 새로운 통찰력을 찾는 작업이기 때문에, 다른 사람들이 볼 수 없는 것들을 볼 수 있어야만 한다(미스터리를 경험규칙으로 전환하는 데 도움이 될 패턴 등). 이를 위해서는 참여 관찰 방법으로 다른 문화를 연구하는 인류학자처럼 주의깊게 관찰하고 세심하게 청취하고 민감하게 반응해야만 한다.
참여관찰 방법을 사용하는 인류학자의 테크닉을 이용해 사용자 입장에 서서 깊이 이해하는 것은 디자인적 사고의 핵심도구다. 피상적인 이해는 기존 모델과 효과를 확인하고 계속 사용하도록 만드는 경향이 있으며, 지식을 심화시키기보다 결국 경직되게 만든다. 관리자로서 고객을 이해하고자 한다면, 자신이 원하는 데이터가 어떤 것이지, 어떻게 하면 그런 데이터를 입수할 수 있는지를 세심하게 검토해야만 한다. 소비자들과 시간을 보내는 일을 기꺼이 받아들여야 한다.


디자인적 사고의 두 번째 도구는 상상이다. 얼핏 생각하면 상상이란 하나의 도구라기보다는 인간의 자연스런운 정신활동처럼 보일지 모른다. 사실 우리는 모두 상상을 한다. 그러나 많은 사람이 상상을 충분히 개발하지는 못했다. 디자인적 사고는 상상을 실용적으로 가다듬어 하나의 강력한 도구, 즉 추론과 검증을 반복적으로 실행하는 순환과정으로서의 도구로 전환한다.
지식생산 필터 다음 단계로 이동하려면, 기존의 모델에 들어맞지 않고 설명되지도 않는 데이터를 관찰을 통해 경험해야만 한다. 통계적으로 유의미한 결과를 도출하는 데는 불충분하겠지만, 주어진 데이터를 기초로 내놓을 수 있는 최선의 설명을 추론하는 것이다. 이와 같은 추론과정을 ‘귀추논리에 의존한 추론‘이라 부른다.
이 귀추논리에 의한 추론은 대단한 강력한 추론 형식인데 비즈니스 영역에서는 귀납과 연역 논리에 가려 제대로 사용되지 않았고 충분히 개발되지도 못했다. 이는 비즈니스계가 편협해서만은 아니다. 귀추논리에는 사실 나름의 약점이 있다. 귀추논리에 근거를 둔 아이디어는 사전에 검증을 할 수가 없다. 귀추논리에 의거한 아이디어가 완전히 잘못된 생각일 가능성도 꽤 있는 것이다. 바로 이 때문에 추론과 검증의 순환과정이 대단히 중요하다. 디자인적 사고는 돌파구를 제공할 수 있는 추론으로부터 원형을 창조하고 원하는 혹은 기대하는 결과를 얻는 데 효과가 있는지 테스트한다. 아무리 뛰어난 취추 노리 사용자라 할 지라도 그가 만든 최초의 원형은 기대에 훨씬 못 미치기 마련이다.
디자인적 사고의 근본적인 태도에서 보자면, 이러한 약점은 오히려 원형을 개선하고 일련의 테스트를 거쳐 새로운 추론과 원형을 잇달아 내놓음으로써 결국 만족스러운 디자인에 도달할 기회를 제공한다.


디자인적 사고의 마지막 도구는 구성이다. 아이디어를 행위체계로 전환해, 원하는 비즈니스 결과물을 창출하는 작업이다. 이 작업의 핵심은 귀추논리에 의건한 창조적 직관으로부터 결실을 맺을 수 있도록 비즈니스를 디자인하는 것이다. 구성에 이르지 못한다면, 관찰과 상상으로부터 의미 있는 보상을 얻을 수 없다.
구성단계란 관리자가 자신의 통찰과 새로운 해법이 사업영역이라는 보다 큰 맥락에 잘 들어맞는지를 스스로에게 질문하는 과정이다. 창조한 행위체계가 단지 자신이 속한 부석 혹은 프로젝트와만 관련될 수도 있다. 그러나 그처럼 제한된 영역에서도 모델을 개발하고 테스트하며 검증할 수 있다.

경험 : 숙련과 독창성의 균형을 이루어라

디자인적 사고에 더욱 능숙해지기 위해서는 숙련도를 제고하고 독창성을 배양하는 데 경험을 의식적으로 이용해야만 한다. 디자인적 사고는 숙련과 독창성 사이의 균형을 요구한다.
체계화와 계획, 집중, 반복을 주요한 특징으로 하는 숙련에 도달하기 위해서는 특정 영역에서의 반복된 경험이 필요하다. 일정한 영역의 대가들은 이전에 이미 특정한 현상들을 많이 다루어 보았고 그 현상들이 의미하는 바가 무엇인지 알고 있기 때문에, 초보자들처럼 모든 변화나 정보를 일일이 처음부터 해석할 필요가 없다. 무한한 데이터의 늪에서 이들은 중요하고 두드러진 몇 가지 특징을 짚어내 상호간의 인과관계를 머릿속에 그릴 수 있다.
어떤 상황에서는 숙련의 특징인 반복과 체계화 그리고 계획이 보상으로 이어지지 않는다. 이와 같이 특수한 상황은 새로운 접근법 혹은 해결책을 요구한다. 독창성이 필요한 것이다. 독창성은 싫섬, 새로운 상황에 대한 자발적인 대응, 정보가 지시하는 방향으로의 유연한 변화, 비록 기대하지는 않았지만 우연히 포착된 기회에 대한 민감한 반응을 요구한다. 실험에서도 그렇듯이 독창성이 실패로 이어지는 것은 다반사다. 시행착오와 반복되는 원형제작 과정을 편안한 마음으로 받아들이는 것이 중요하다. 만일 그렇게 하지 못한다면, 독창성이 결여된 덜 위험한 형태의 숙련에 집중하게 된다.

독창성이 없는 숙련이란 기계적인 반복일 뿐이다. 새로운 방식의 사고를 시도하지 않은 대가로 언제나 똑같은 방식으로 동일한 것들만 보게 된다. 이런 과정이 지속되면 숙련은 막다른 골목에 다다른다. 마찬가지로 숙련이 빠진 독창성은, 완전한 마구잡이는 아니겠지만 대단히 불규칙하다. 숙련과 독창성의 결합에서 진정한 힘이 나온다.

조직 내부에서 어떤 위치에 있든, 디자인적 사고를 성공적으로 실행에 옮기는 사람은 자신이 맡은 역할과 연관된 특정한 도구와 기술을 마스터하기 위해 시간과 노력을 다 바친다. 그들은 기업이라는 시스템 내부가 어떻게 운영되는지 이해하기 위해 최선을 다한다. 그러나 동시에 새로운 무언가를 시도하고 그 한계를 테스트하기 위한 기회를 의식적이고 분명하게 추구한다. 신뢰성이 타당성을 밀어내는 경우와 마찬가지로, 숙련을 과도하게 강조하면 독창성에 대한 고려를 말살하게 된다. 따라서 아주 조금씩이라도 독창성을 개발해나감으로써 이러한 경향에 맞서려는 노력을 의식적으로 해나가야 한다. 창조적인 능력을 극대화하고, 자신이 전문성을 가진 영역 외의 다른 분야에서 구성되는 위원회 등에도 자발적으로 참여하면서 자신이 숙련된 영역 밖으로도 손을 뻗쳐야 한다.

출처 : 디자인 씽킹(Design Thinking : 아이디어를 아이콘으로 바꾸는 생각의 최고 지점) (저자 : 로저 마틴 출판사:웅진윙스)의 제 4장 ‘생각 3.0:생각의 밸런스를 맞춰라’ 중에서

분석과 직관의 균형

December 26th, 2010

분석과 직관의 ‘선택과 집중’이 아니라 ‘균형‘이 중요하다.

사고 방식의 격차 : 분석과 직관의 균형, Design Thinking

기업조직에 신뢰성과 타당성은 둘 다 중요하다. 타당성 없이 지식 생산 필터의 다음 단계로 지식을 심화시킬 가능성은 거의 없다. 신뢰성을 추구하지 않으면, 더 높은 수준으로 심화된 지식이 가져오는 보상을 충분히 거둬들이지 못한다. 탐색과 활용의 관계와 마찬가지로, 신뢰성과 타당성의 관계에서도 최적의 접근법은 둘 중의 하나를 선택하는 것이 아니라 양자의 균형을 추구하는 것이다.

사고 방식의 격차; 분석과 직관의 균형

타당성과 신뢰성 사이에서 균형을 추구하는 방법은 상황에 따라 그리고 기업에 따라 다르다. 기업의 특정 부문(예컨대, 회계)은 신뢰도가 높은 방법을 강조하고, 다른 부문(예컨대, 연구개발)은 타당성을 포용할 수도 있을 것이다. 마케팅 같은 부서의 경우 중용을 택할 수도 있다. 정성적 연구(qualitative research) 방식을 채용하면서도 이를 신뢰성을 추구하는 체계 안에 편입하는 것이 하나의 예가 될 것이다.
그러나 신뢰성이 지배하는 기업문화에서 타당성을 추구하려는 경향을 포용하기란 사실 대단히 어려운 일이다. 기업이 타당성보다는 신뢰성을 선호할 실질적이고도 강력한 이유가 존재하고, 신뢰성에 대한 선호가 조직구조와 프로세스 그리고 문화에서 최상의 가치로 받아들여지기 때문이다.
타당성을 포용하려면 기업조직은 증거에 대한 정의를 새롭게 하고, 주관적인 판단을 피할 수 없는 결함이라기 보다는 어느 정도 가치 있는 것으로 받아들이며, 올바른 해답을 얻기 위해 시간을 좀 더 들이는 일이 해볼 만한 가치가 있다는 점을 인정해야 한다. 새로운 사고 방식에 좀 더 개방적인 태도를 취해야만 하는 것이다.

신뢰성과 타당성 : 모든 조건은 동일하지 않다 – 미니아 모도비아누

먼저 ‘신뢰할’ 수 있는 예측부터 살펴보자. 어떤 의미인가? 신뢰성 있는 예측이란 미래의 사건에 관한 하나의 진술인데, 우리는 이를 기호 S로 나타낼 것이다. 신뢰할 수 있는 예측은 신뢰할 수 있는 프로세스를 통해 창출된 예측이다. 신뢰할 수 있는 프로세스란 과거에 신뢰할 수 있는 예측을 N번에 걸쳐 내놓은 절차로, N은 대단히 큰 숫자이다.
모기지 금리가 주택 가격에 미치는 영향에 관한 신뢰할 만한 예측은, 두 변수가 반비례관계에 있다는 것이다. 이 예측은 신뢰할 만한 것인데, 왜냐하면 이러한 예측을 내놓은 프로세스가 과거 성공적인 것으로 드러났기 때문이다.

그렇다면 ‘타당한 예측‘이란 무엇인가? 이는 결국 진실인 것으로 밝혀지는 예측이다. 예측이란, 언제나 ‘미래’에 관한 것이다. 따라서 예측이 단정했던 미래의 사건이 실제로 일어나기 전에는 그 진위를 판단할 방법이 없다.
신뢰성으로부터 타당성을 추론하는 것은 ‘귀납적 오류(inductive fallacy)’이다. 이와 같은 오류 중에서 가장 극단적이고 유해한 형태는 예측의 신뢰성이 타당성을 논리적으로 ‘수반’한다고 생각하는 것이다. 1999년 이전 첨단기술 기업에 관한 신뢰도 높은 예측은, 신생 기업의 웹사이트를 사람들이 방문한 횟수 그리고 그 기업이 고용한 엔지니어의 수가 배가됨에 따라 해당 기업의 가치가 증가한다는 것이었다. 그러나 2000년 9월 이후 이와 같은 기업가치 평가는 ‘타당성 없는’ 예측이었고, 타당하지 않은 투자로 이어졋음이 밝혀졌다.
약한 형태의 귀납적 오류 중에서 예를 하나 들어 보자. 예측이 신뢰할 만한 경우, 이 예측이 타당한 것으로 판명될 확률이 타당하지 않은 것으로 밝혀지 확률보다 크다고 생각하는 것이다.
버트런드 러셀(Bertrand Russel)은 이러한 귀납적 오류를 닭의 우화에 비유했다. 매일 아침 농장의 저인이 닭장에 나타날 때마다 닭은 주인이 자신에게 먹이를 줄 것으로 -정확하게- 예상한다. 주인이 자신의 목을 비틀기 위해 닭장을 나타나는 마지막 날에도 닭은 – 신뢰가 높지만 타당하지는 않게 – 주인이 자신에게 먹이를 줄 것으로 예측한다.

신뢰성으로부터 타당성을 추론하는 사고의 문제점은, 대다수의 실험결과 그리고 경험적 연구결과에 등장하는 ‘다른 모든 조건이 동일하다면’ 여타의 상황에서도 효력이 있을 것이라는 의미다. 그런데 우리가 살아가는 이른바 ‘세상’이라느 곳은 다양한 요인에 개방되어 있고 통제되지 않는 시스템이라는 점이 결정적으로 중요하다. 하나의 상황과 다른 하나의 상황에서 모든 조건은 ‘동일하지 않다’.

신뢰성으로부터 타당성으로 전환하는 데 필요한 안전장치는 단지 간단한 추론의 한 단계가 아니라 훨씬 복잡한 귀추논리의 단계다. 타당성을 추구하는 일은 신뢰성을 추구하는 것과는 달리 과거의 성공적 예측을 ‘가설(hypotheses)’로 간주하고, 미래에 대한 타당한 예측을 내놓으려는 작업에서 이들 가설을 대단히 조심스럽게 조사하고 이용한다. 따라서 ‘진정한’ 경험론자란 ‘다른 모든 조건이 동일하다면’이라는 가정을 더 이상 쓸모없게 만들어버릴지도 모르는 예외적인 값(outlier)를 정확하게 볼 수 있는 ‘최고 수준의 관찰자’이다.

출처 : 디자인 씽킹(Design Thinking : 아이디어를 아이콘으로 바꾸는 생각의 최고 지점) (저자 : 로저 마틴 출판사:웅진윙스)의 제 4장 ‘생각 3.0: 생각의 밸런스를 맞춰라’ 중에서

지식 생산 필터

December 26th, 2010

지식 생산 필터는 모든 성공적인 기업 혁신이 거쳐간 동일한 경로를 나타낸다. 이 필터속에서 지식이 어떻게 고도화되는지를 다음 그림이 보여준다.

미스터리 탐색

필터의 첫 번째 단계는 ‘미스터리’ 탐색이다. 미스터리는 수도 없이 다양한 형태를 취할 수 있다. 자폐증 환자가 보이는 여러 가지 증상의 미스터리를 탐색하는 연구자 또한 화학요법을 받는 암환자를 호전시키는 데 어떤 공간이 적절한지를 알고자 하는 병원 관리자가 있을 수도 있다. 야심 있는 세일즈맨이라면 미국인들이 일하면서 식사를 해결할 수 있는 음식으로 무엇을 원하는 지를 알고 싶어할 수도 있다.


필터의 다음 단계는 경험규칙(heuristic)이다. 탐구할 영역을 좁히고 미스터리를 다룰 수 있을 만한 크기로 줄여주는 단계다. 경험규칙은 유전적인 특성이나 환자 입자에서 화학 요법 과정에 접근하는 방법일 수도 있고, 킥서비스 혹은 드라이브스루(drive-through)식 레스토랑 개념일 수도 있다.
이는 미스터리를 단순한 형태로 이해할 수 있도록 만들어주는 사고 방식으로 경험법칙을 사용함으로써 미스터리를 이해하려는 노력을 특정 부분에 집중할 수 있다.


경험규칙을 적용하고 보다 깊고 밀도 있게 연구하는 조직은 개략적인 경험규칙, 가령 ‘미국인들은 빠르고 편리하며 맛있는 식사를 원한다’를 확고한 공식, 즉 크록이 만든 맥도날드의 완벽한 시스템으로 전환시킬 수 있다. 이 공식은 지식생산 필터에서 마지막 단계인 알고리즘(algorithm)이다.

지식 생산 필터에서 세 단계는 각각 특유의 성질을 지니는데, 이는 좀 더 세부적으로 설명할 가치가 있다. 지혜로 이르는 길은 무지에서 시작한다고들 한다. 바로 그 무지가 우리가 서 있는 곳이다.

출처 : 디자인 씽킹(Design Thinking : 아이디어를 아이콘으로 바꾸는 생각의 최고 지점) (저자 : 로저 마틴 출판사:웅진윙스)의 제 1장 ‘지식생산 필터’ 중에서